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总 序 


短 短 几 年 间 ， 大 数据 就 以 一 日 千里 的 发 展 速 度 , 快速 实现 了 从 概念 
到 落地 ， 直 接 带动 了 相关 产业 的 井喷 式 发 展 。 数 据 采集 、 数 据 存储 、 数 
据 挖掘 、 数 据 分 析 等 大 数据 技术 在 越 来 越 多 的 行业 中 得 到 应 用 ， 随 之 而 
来 的 就 是 大 数据 人 才 缺 口 问题 的 凸显 。 根 据 《 人 民 日 报 》 的 报道 ， 未 来 
3~5 年 ， 中 国 需要 180 万 大 数据 人 才 ， 但 目前 只 有 约 30 万 人 ， 人 才 缺 
口 达到 150 万 之 多 。 

大 数据 是 一 门 实践 性 很 强 的 学 科 , 在 其 呈现 金字 塔 型 的 人 才 资 源 模 
型 中 , 数据 科学 家 居于 塔 尖 位 置 ， 然 而 该 领域 对 于 经 验 丰富 的 数据 科学 
家 需求 相对 有 限 ， 反 而 是 对 大 数据 底层 设计 、 数 据 清 洗 、 数 据 挖掘 及 大 
数据 安全 等 相关 人 才 的 需求 急剧 上 升 , 可 以 说 占据 了 大 数据 人 才 需 求 的 
80% 以 上 。 比 如 数据 清洗 、 数 据 挖掘 等 相关 职位 , 需要 大 量 的 专业 人 才 。 

迫切 的 人 才 需 求 直接 催 热 了 相应 的 大 数据 应 用 专业 。2018 年 1 月 
18 日 ， 教 育 部 公布 了 “大 数据 技术 与 应 用 ”专业 备案 和 审批 结果 ， 已 
有 270 所 高 职 院 校 申 报 开 设 “ 大 数据 技术 与 应 用 ”专业 ， 其 中 共有 208 
所 职业 院 校 获 批 “ 大 数据 技术 与 应 用 ”专业 。 随 着 大 数据 的 深入 发 展 ， 
未 来 几 年 申请 与 获 批 该 专业 的 职业 院 校 数量 仍 将 持续 走高 。 同 时 ， 对 于 
国家 教育 部 正式 设立 的 “数据 科学 与 大 数据 技术 ”本 科 新 专业 ， 除 已 获 
批 的 35 所 大 学 之 外 ，2017 年 申请 院 校 也 高 达 263 所 。 

即使 如 此 , 就 目前 而 言 , 在 大 数据 人 才 培 养 和 大 数据 课程 建设 方面 ， 
大 部 分 专科 院 校 仍然 处 于 起 步 阶 段 ， 需 要 探索 的 问题 还 有 很 多 。 首 先 ， 
大 数据 是 个 新 生 事物 ， 懂 大 数据 的 老师 少 之 又 少 ， 院 校 缺 “人 ”其 次 ， 
院 校 尚未 形成 完善 的 大 数据 人 才 培 养 和 课程 体系 , 缺乏 “机 制 ” 再 次 ， 
大 数据 实验 需要 为 每 位 学 生 提 供 集 群 计 算 机 ， 院 校 缺 “机 器 ”; 最 后 ， 
院 校 没 有 海量 数据 ， 开 展 大 数据 教学 实验 工作 缺少 “原材料 ”。 

对 于 注重 实 操 的 大 数据 技术 与 应 用 专业 专科 建设 而 言 , 需要 重点 面 
向 网 络 怜 虫 、 大 数据 分 析 、 大 数据 开发 、 大 数据 可 视 化 、 大 数据 运 维 工 
程 师 的 工作 岗位 ,帮助 学 生 掌 握 大 数据 技术 与 应 用 专业 必 备 知识 , 使 其 
具备 大 数据 采集 、 存 储 、 清 洗 、 分 析 、 开 发 及 系统 维护 的 专业 能 力 和 技 
能 ， 成 为 能 够 服务 区 域 经 济 的 发 展 型 、 创 新 型 或 复合 型 技术 技能 人 才 。 
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无 论 是 缺 “ 人 ” 缺 “ 机 制 ”、 缺 “机 器 ”， 还 是 缺少 “原材料 ”， 最 终 都 
难以 培养 出 合格 的 大 数据 人 才 。 

其 实 , 早 在 网 格 计 算 和 云 计 算 兴 起 时 , 我 国 科 技工 作者 就 曾 遇 到 过 
类 似 的 挑战 , 我 有 幸 参与 了 这 些 问题 的 解决 过 程 。 为 了 解决 网 格 计算 问 
题 ， 我 在 清华 大 学 读 博 期 间 ， 于 2001 年 创办 了 中 国 网 格 信息 中 转 站 网 
站 ,每 天 花 几 个 小 时 收集 和 分 享有 价值 的 资料 给 学 术 界 ,此 后 我 也 多 次 
筹办 和 主持 全 国 性 的 网 格 计 算 学 术 会 议 ， 进 行 信息 传递 与 知识 分 享 。 
2002 年 ， 我 与 其 他 专家 合作 的 《网 格 计算 》 教 材 正式 面世 。 

2008 年 ， 当 云 计 算 开 始 萌 芽 之 时 ， 我 创办 了 中 国 云 计算 网 站 
(chinacloud.cn) (在 各 大 搜索 引擎 “ 云 计算 ”关键 词 中 排名 第 一 ), 2010 
年 出 版 了 《 云 计算 (第 1 版 )》，2011 年 出 版 了 《 云 计算 (第 2 版 )》， 
2015 年 出 版 了 《 云 计算 (第 3 版 )》， 每 一 版 都 花费 了 大 量 成 本 制作 并 
免费 分 享 对 应 的 几 十 个 教学 PPT。 目 前 ， 这 些 PPT 的 下 载 总 量 达到 了 
几 百 万 次 之 多 。 同 时 ,《 云 计算 》 一 书 也 成 为 了 国内 高 校 的 优秀 教材 ， 
在 中 国 知 网 公布 的 高 被 引 图 书 名 单 中 ,《 云 计算 》 在 自动 化 和 计算 机 领 
域 排名 全 国 第 一 。 

除了 资料 分 享 ， 在 2010 年 ， 我 们 在 南京 组 织 了 全 国 高 校 云 计算 师 
资 培训 班 ， 培 养 了 国内 第 一 批 云 计算 老师 ， 并 通过 与 华为 、 中 兴 、360 
等 知名 企业 合作 ,输出 云 计算 技术 ,培养 云 计算 研发 人 才 。 这 些 工作 获 
得 了 大 家 的 认可 与 好 评 ， 此 后 我 接连 担任 了 工信部 云 计算 研究 中 心 专 
家 、 中 国 云 计 算 专 家 委员 会 云 存储 组 组 长 、 中 国 大 数据 应 用 联盟 人 工 智 
能 专家 委员 会 主任 等 。 

近 几 年 , 面 对 日 益 突出 的 大 数据 发 展 难题 ， 我 们 也 正在 尝试 使 用 此 
前 类 似 的 办 法 去 应 对 这 些 挑 战 。 为 了 解决 大 数据 技术 资料 缺乏 和 交流 不 
够 通 透 的 问题 ， 我 们 于 2013 年 创办 了 中 国 大 数据 网 站 (thebigdata.cn)， 
投入 大 量 的 人 力 进行 日 常 维护 , 该 网 站 目前 已 经 在 各 大 搜索 引擎 的 “大 
数据 ”关键 词 排名 中 位 居 第 一 ; 为 了 解决 大 数据 师资 匮乏 的 问题 ， 我 们 
面向 全 国 院 校 陆 续 举 办 多 期 大 数据 师资 培训 班 ， 致 力 于 解决 “ 缺 人 ”的 
问题 。 

2016 年 年 末 至 今 , 我 们 已 在 南京 多 次 举办 全 国 高 校 /高 职 /中 职 大 数 
据 免 费 培训 班 ， 基 于 《大 数据 》《 大 数据 实验 手册 》 以 及 云 创 大 数据 提 
供 的 大 数据 实验 平台 ,帮助 到 场 老师 们 跑 通 了 Hadoop、Spark 等 多 个 大 
数据 实验 ， 使 他 们 跨 过 了 “从 理论 到 实践 ， 从 知道 到 用 过 ”的 门槛 。 

其 中 , 为 了 解决 大 数据 实验 难 问题 而 开发 的 大 数据 实验 平台 , 正在 


为 越 来 越 多 的 高 校 教学 科研 带 去 方便 ， 帮 助 解决 “ 缺 机 器 ”与 “ 缺 原 材 
料 ” 的 问题 。2016 年 ， 我 带领 云 创 大 数据 (www.cstor.cn， 股 票 代码 : 
835305) 的 科研 人 员 ， 应 用 Docker 容器 技术 ， 成 功 开发 了 BDRack 大 
数据 实验 一 体 机 , 它 打破 了 虚拟 化 技术 的 性 能 瓶颈 ,可 以 为 每 一 位 参加 
实验 的 人 员 虚 拟 出 Hadoop 集群 、Spark 集群 、Storm 集群 等 ， 自 带 实 验 
所 需 数 据 ， 并 准备 了 详细 的 实验 手册 (包含 42 个 大 数据 实验 )、PPT 和 
实验 过 程 视频 ,可 以 开展 大 数据 管理 、 大 数据 挖掘 等 各 类 实验 ， 并 可 进 
行 精确 营销 、 信 用 分 析 等 多 种 实战 演练 。 

目前 ， 大 数据 实验 平台 已 经 在 郑州 大 学 、 成 都 理工 大 学 、 金 陵 科技 学 
院 、 天 津 农学 院 、 西 京 学 院 、 郑 州 升 达 经 贸 管 理学 院 、 信 阳 师 范 学 院 、 镇 
江 高 等 职业 技术 学 校 等 多 所 院 校 部 署 应 用 ， 并 广 受 校方 好 评 。 该 平台 也 可 
以 云 服 务 的 方式 在 线 提供 (大 数据 实验 平台 ，https://bd.cstor.cn)， 实 验 
更 是 增 至 85 个 ， 师 生 通 过 自学 ， 可 用 一 个 月 时 间 成 为 大 数据 实验 动手 
的 高 手 。 此 外 , 面 对 席卷 而 来 的 人 工 智 能 浪潮 , 我 们 团队 推出 的 AIRack 
人 工 智能 实验 平台 、DeepRack 深度 学 习 一 体 机 以 及 dServer 人 工 智 能 服 
务 器 等 系列 应 用 ,一 举 解决 了 人 工 智能 实验 环境 搭建 困难 、 缺 乏 实验 指 
导 与 实验 数据 等 问题 , 目前 已 经 在 清华 大 学 、 南 京 大 学 、 南 京 农业 大 学 、 
西安 科技 大 学 等 高 校 投入 使 用 。 

在 大 数据 教学 中 ,本 科 院 校 的 实践 教学 应 更 加 系统 性 ,偏向 新 技术 
的 应 用 ， 且 对 工程 实践 能 力 要 求 更 高 。 而 高 职 、 高 专 院 校 则 更 偏向 于 技 
术 性 和 技能 训练 , 理论 以 够 用 为 主 , 学 生 将 主要 从 事 数据 清洗 和 运 维 方 
面 的 工作 。 基 于 此 ， 我 们 联合 多 家 高 职 院 校 专家 准备 了 《 云 计算 导论 》 
《大 数据 导论 》《 数 据 挖掘 基础 》《R 语言 》《 数 据 清洗 》《 大 数据 系统 
运 维 》《 大 数据 实践 》 系 列 教材 ， 帮 助 解决 “机 制 ” 欠 缺 的 问题 。 

此 外 ， 我 们 也 将 继续 在 中 国 大 数据 (thebigdata.cn) 和 中 国 云 计算 
(chinacloud.cn) 等 网 站 免费 提供 配套 PPT 和 其 他 资料 。 同 时 ,持续 开放 大 
数据 实验 平台 (https://bd.cstor.cn)、 免 费 的 物 联 网 大 数据 托管 平台 万 物 云 
(wanwuyun.com) 和 环境 大 数据 免费 分 享 平台 环境 云 (envicloud.cn)， 使 
资源 与 数据 随手 可 得 ， 让 大 数据 学 习 变 得 更 加 轻松 。 

在 此 ， 特 别 感谢 我 的 硕士 导师 谢 希 仁 教授 和 博士 导师 李 三 立 院士 。 
谢 希 仁 教 授 所 著 的 《计算 机 网 络 》 已 经 更 新 到 第 7 版 ， 与 时 俱 进 日 至 完 
美 ， 时 时 提醒 学 生 要 以 这 样 的 标准 来 写 书 。 李 三 立 院士 是 留 苏 博士 ， 为 
我 国 计 算 机 事业 做 出 了 杰出 贡献 ， 曾 任国 家 攀登 计划 项 目 首席 科学 家 。 
他 的 严谨 治学 带 出 了 一 大 批 杰出 的 学 生 。 
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本 从 书 是 集体 智慧 的 结晶 ， 在 此 谨 向 付出 辛勤 劳动 的 各 位 作者 致敬 ! 
书 中 难免 会 有 不 当 之 处 ， 请 读者 不 音 赐教 。 我 的 邮箱 : gloud@126.com， 微 
信 公 众 号 : 刘 觅 看 未 来 (lpoutlook )。 


刘 鹏 
于 南京 大 数据 研究 院 
2018 年 5 月 
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数据 挖掘 是 知识 发 现 不 可 缺少 的 部 分 , 是 将 未 加 工 的 数据 转换 为 有 
用 信息 的 过 程 。 为 了 贯彻 国家 大 数据 战略 ， 尽 快 帮助 高 职 院 校 学 生 学 习 
和 掌握 数据 挖掘 的 基本 知识 以 及 基本 应 用 技能 , 我 们 以 通俗 、 简明 并 结 
合 实际 应 用 的 方式 编写 了 《数据 挖掘 基础 》 教 材 。 

《数据 挖掘 基础 教材 讲述 了 数据 挖掘 概念 、 数 据 挖掘 的 常用 方法 ， 
包括 分 类 方法 、 聚 类 方法 和 关联 规则 方法 。 此 外 ， 本 教材 还 从 实际 应 用 
出 发 ， 讲 解 了 日 志 的 挖掘 与 应 用 方法 。 

分 类 是 数据 挖掘 中 的 一 种 重要 方法 , 在 给 定数 据 基础 上 构建 分 类 函 
数 或 分 类 模型 ， 该 函数 或 模型 能 够 将 数据 归 类 为 给 定 类 别 中 的 某 一 类 
别 ， 就 是 分 类 。 一 般 通 过 构建 分 类 器 实现 具体 分 类 ， 分 类 器 是 对 样本 进 
行 分 类 方法 的 统称 。 本 教材 将 对 分 类 的 基本 概念 及 知识 ， 如 决策 树 、 分 
类 器 、 贝 叶 斯 分 类 器 、 支 持 向 量 机 等 内 容 进 行 讲解 和 研究 。 

聚 类 的 过 程 ， 就 是 将 相似 数据 归并 到 一 类 的 过 程 ， 形 成 同类 对 象 具 
有 共同 特征 ,不 同类 对 象 之 间 有 显著 区 别 。 聚 类 的 目的 是 通过 数据 间 的 
相似 性 将 数据 归 类 ， 并 根据 数据 的 概念 描述 来 制定 对 应 的 策略 。 本 教材 
将 对 聚 类 基本 概念 及 常用 算法 进行 讲解 ,着重 研 究 了 聚合 分 析 方 法 ， 并 
介绍 了 聚 类 方法 应 用 场景 。 此 外 ， 还 详细 讲解 了 聚 类 方法 的 实现 例子 。 

关于 关联 规则 , 我 们 从 营销 界 流传 的 “啤酒 与 尿布 ”经 典 案例 入 手 ， 
介绍 关联 规则 的 概念 、 定 义 和 分 类 ， 并 分 析 了 关联 规则 的 挖掘 过 程 ， 包 
括 频繁 项 集 产 生 、 强 关联 规则 和 关联 规则 评价 标准 ， 重 点 介绍 了 关联 规 
则 最 为 经 典 的 算法 一 一 Apriori 算法 ， 并 分 析 了 关联 规则 挖掘 技术 在 国 
内 外 的 应 用 现状 ， 以 及 关联 规则 挖掘 实例 。 

日 志 分 析 挖 掘 的 综合 实战 章节 讲述 了 日 志 概 念 、 日 志 处 理 、 日志 分 
析 原 理 及 工具 、 日 志 挖掘 应 用 ， 以 及 日 志 分 析 挖 掘 实 例 。 

我 们 衷心 希望 本 教材 可 以 帮助 读者 学 习 到 数据 挖掘 的 基础 知识 ， 掌 
握 数据 挖掘 的 基本 方法 , 以 及 体会 到 数据 挖掘 在 实际 应 用 中 的 精妙 之 处 。 

感谢 编写 组 的 全 体 老师 ， 他 们 相互 鼓励 、 相 互 学 习 、 相 互 促进 ， 为 
《数据 挖掘 基础 》 教 材 的 编写 付出 了 辛勤 的 劳动 ! 本 书 的 问世 也 要 感谢 
清华 大 学 出 版 社 王 莉 编辑 给 予 的 宝贵 意见 和 指导 。 


《数据 挖掘 基 础 》 编 写 组 
2018 年 5 月 


第 1 章 数据 挖掘 概念 
1.1 数据 挖掘 概述 1 
EL 什么 是 数据 挖掘 和 
1.1.2 ”数据 挖掘 常用 算法 概述 oe 
1.1.3 ”数据 挖掘 常用 工具 概述 … 











1.2 ”数据 探索 ……………… 
1.2.1 数据 概述 5 
1.2.2 ”数据 质量 
1.2.3 ”数据 预 处 理 一 

全 二 数据 挖掘 的 应 用 RT RO OP WOO IRE OR EE 11 
1 数据 挖 捉 现 状 及 发 展 趋 6c6eseessessersisstisreei ei 11 


1.3.2 ”数据 挖掘 需要 解决 的 问题 - 







1.3.3 数据 挖掘 的 应 用 场景 … 二 入 

1.4 ”作业 与 练习 18 

参考 文献 AR 18 
第 2 章 分 类 

汪汪 分 类 概述 RN 19 

2.1.1 分 类 的 基本 概念 ……………… 19 


2.1.2 解决 分 类 问题 的 一 般 方法 - 
2.1.3 决策 树 
案例 : Web 机 器 人 检测 … 
2.1.4 模型 的 过 分 拟 合 …… “24 













2.2” 贝 叶 斯 决策 与 分 类 器 25 
2.2.1 规则 分 类 器 和 25 
2.2.2 ”分 类 中 贝 叶 斯 定理 的 应 用 pL 
2.2.3 分 类 中 朴素 贝 叶 斯 的 应 用 27 

2.3 ”支持 向 量 机 
2.3.1 最 大 边缘 超 平面 29 
2.3.2 ”线性 支持 向 量 机 SVM 30 


2.3.3” 非 线性 支持 向 量 机 SVM 3 





2.4 ”分 类 在 实际 场景 中 的 应 用 案例 二 ee 36 





案例 一 ， 如 何 解决 文章 主题 关键 字 与 搜索 引擎 关键 字 带 来 的 检索 结果 差异 ……… 36 
案例 二 ， 杜 别 新 金融 交易 方式 的 欺诈 行为 1 
案例 三 ， 在 线 广告 推荐 中 的 分 类 

36 Ee 40 





3.2.1 欧 氏 距离 .0 
3.2.2 ”聚合 过 程 . … 








3.5 作业 与 练习 和 61 
参考 文献 eT OR NEO ER RR 61 
第 4 章 关联 规则 
4.1 关联 规则 概述 和 63 
4.1.1 经 典 案例 导入 63 
的 64 
4.1.3 ”关联 规则 的 分 类 …………… 国 
4.2 ”关联 规则 的 挖掘 过 程 68 
A Es | 
4.2.2 ”频繁 项 集 产 生 … 中 
ER 





4.2.4 ”关联 规则 评价 标准 ……… 71 
4.3 关联 规则 的 Apriori 算法 … 
4.3.1 知识 回顾 … 
4.3.2 ”Apriori 算法 的 核心 思想 
4.3.3 Apriori 算法 描述 -… 
43 轩 ，Aiio8 算法 评价 76 








1 
于 
济 





4.3.5 Apriori 算法 改进 
4.4 “关联 规则 的 FP-growth 算法 
4.4.1 构建 FP 树 …………………… 
4 让 0 出 申 所 所 六 当 肖 杀生 
4.5 “实战 : 关联 规则 控 握 实例 -nn 
4.5.1 关联 规则 挖掘 技术 在 国内 外 的 应 用 现状 … 
4.5.2 关联 规则 应 用 实例 …………… 
45.3 ”关联 规则 在 大 型 超市 中 应 用 的 步骤 二 ee 
4.6 ”作业 与 练习 88 








第 5 章 综合 实战 一 一 日 志 的 挖掘 与 应 用 

5.1 目 志 概念 怕 0 90 
5.1.1 日 志 是 什么 
5.1.2 ”日 志 能 做 什 委 91 

5.2 日 志 处 理 i 
5.2.1 产生 卓志 
二 了 2 传输 日 志 Re 
5.2.3 ”存储 日 志 - 
5.2.4 ”分析 日 志 … 
5.2.5 日 志 规 范 与 标准 

5.3 日 志 分 析 原 理 及 工具 … a 
| 日 志 分 析 原 理 Ed 
当当 澡 日 志 分 析 工 具 ed 
5.3.3 日 志 分 析 系 统 规划 建设 De 

5.4 日 志 挖 掘 应 用 US 
54.1 安全 运 维 RPT 
5.4.2 ”系统 健康 分 析 -… 
5.4.3 用 户 行为 分 析 … 

















5.4.4 业务 分 析 设计 …… 
S58 旧 志 分 析 折 加 实 国富 人 
5.6 ”作业 与 练习 和 133 
rd) 133 


第 6 章 数据 挖掘 应 用 案例 
6.1 ”电力 行业 采用 聚 类 方法 进行 主 变 油 温 分 析 ……… 134 


。* 一 XIl 数据 挖掘 基础 一 * 


1 HL 


6.1.1 需求 背景 及 采用 的 大 数据 分 析 方 法 本 
6.1.2 ”大 数据 分 析 方法 的 实现 过 程 135 
6.1.3 ”大 数据 分 析 方法 的 实现 结果 137 
6.2 ”银行 信贷 评价 138 
6.2.1 简介 138 
6.2.2 ”神经 网 络 模型 .138 














6.2.3 ”实证 检验 … “30 
6.3 ”指数 预测 ………………… ...140 
6.3.1 金融 时 间 序 列 概况 … -140 
6.3.2 小波 消 曲 …………… 141 
6.3.3 向量 机 142 
6.3.4 指数 预测 SR 
64， 安 户 分 群 的 情 准 包 能 总 铺 omsesnsiieeie pt 143 
6.4.1 “挖掘 目标 143 
6.4.2 分析 方法 和 过 程 sj 
6.4.3 建 模仿 真 eh A le ho i 148 
6.5 ”使 用 WEKA 进行 房屋 定价 和 150 
6.6 ”作业 与 练习 154 
参考 文献 er TE TN ee TN EE ES 155 


附录 A ”大 数据 和 和 人工 智 能 实验 环境 
附录 B Hadoop 环境 要 求 
附录 C 名词 解释 


数据 挖掘 概念 


数据 挖掘 是 什么 ? 与 现 有 的 统计 学 、 概 率 学 、 信 息 学 等 学 科 有 什么 
不 一 样 ? 作为 一 门 新 兴 的 学 科 , 数据 挖掘 有 两 个 特点 : 一 是 数据 的 广泛 
性 、 多 样 性 ; 二 是 数据 研究 的 共性 。 数 据 的 类 型 多 种 多 样 ， 既 有 传统 的 
结构 化 数据 ， 也 有 网 页 、 文 本 、 图 像 、 视 频 、 语 音 等 非 结 构 化 数据 。 数 
据 挖掘 主要 包括 两 个 方面 : 一 方面 用 数据 挖掘 算法 、 工 具 来 研究 数据 ; 
另 一 方面 将 获得 的 知识 应 用 到 各 个 领域 中 。 在 数据 采集 中 并 非 所 有 的 信 
息 发 现任 务 都 被 视 为 数据 挖掘 ， 如 通过 Inter 搜索 引擎 查找 特定 的 Web 
页 面 属于 信息 检索 领域 。 数 据 挖掘 是 将 未 加 工 的 数据 通过 相应 的 算法 、 
工具 转换 为 有 价值 的 信息 的 过 程 。 

数据 挖掘 的 应 用 对 现代 社会 的 影响 是 多 方面 的 , 如 对 社会 学 研究 有 
着 巨大 的 影响 , 一 是 社交 网 络 、 网 络 科 学 的 研究 形成 新 的 研究 层面 ， 同 
时 提供 了 新 的 研究 方向 、 新 的 实用 价值 ， 如 广告 精准 投放 、 热 点 及 与 情 
分 析 等 ; 二 是 新 的 数据 来 源 和 数据 挖掘 算法 、 工 具 使 它 的 研究 进一步 量 
化 、 去 经 验 化 等 。 


1.1 数据 挖掘 概述 


数据 挖掘 知识 体系 涉及 内 容 广泛 ， 本 节 将 主要 介绍 一 些 基 本 的 概 
念 、 算 法 和 工具 。 


eo— 
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1.1.1 什么 是 数据 挖掘 


数据 挖掘 (Data Mining) 就 是 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 
糊 的 、 随 机 的 数据 中 提取 隐 含 在 其 中 的 、 人 们 事先 不 知道 , 但 又 是 潜在 
有 用 的 信息 和 知识 的 过 程 。 数 据 挖掘 的 数据 源 包 括 数据 库 、 数 据 仓库 、 
Web 或 其 他 数据 存储 库 。 

世界 幸福 报告 (The World Happiness Report) 是 一 个 具有 标志 性 意义 
的 调查 报告 (官方 网 址 : http://worldhappiness.report/)， 则 在 对 世界 各 国 幸 
福 状 态 进 行 了 解 和 研究 。 世 界 幸福 报告 在 各 国政 府 、 组 织 、 民 间 广 泛 使 
用 , 它 被 用 来 指导 其 政策 趋向 及 其 政策 开展 的 效果 ,获得 了 几乎 全 球 的 
认可 。2016 年 的 世界 幸福 报告 显示 ， 几 乎 全 球 区 域 以 及 整个 世界 人 口 ， 
各 个 国家 之 间 的 幸福 不 平等 程度 显著 增加 。2016 年 度 的 世界 幸福 报告 
(数据 来 源 官方 网 址 : https://www.kaggle.com/ unsdsn/world-happiness) 
涵盖 了 全 球 的 157 个 国家 。 

国家 统计 、 经 济 学 、 心 理学 、 调 查分 析 、 健 康 、 公 共 政 策 等 各 个 领 
域 的 专家 们 通过 这 些 指数 来 研究 评估 一 个 国家 的 发 展 状况 。 数 据 挖掘 在 
这 个 研究 评估 中 起 到 了 关键 作用 ， 其 中 涉及 的 如 数据 集 、 数 据 分 类 、 层 
次 聚 类 、 数 据 可 视 化 等 。 

并 非 所 有 的 信息 发 现任 务 都 可 称 作 数据 挖掘 ， 例 如 , 在 数据 库 管 理 
系统 中 检索 一 条 记录 ， 属 于 信息 检索 (Information Retrieval) 领域 的 任 
务 , 尽管 也 是 从 大 量 数据 中 检索 有 用 信息 , 但 并 不 满足 数据 挖掘 的 概念 。 


1.1.2 ”数据 挖掘 常用 算法 概述 


在 面 对 海 量 数 据 时 ， 需 要 使 用 一 定 的 算法 ,才能 从 中 挖掘 出 有 用 的 
信息 ， 下 面 介绍 数据 挖掘 中 常用 的 算法 。 


1. 分 类 算法 


(1) 决策 树 算 法 。 决 策 树 算法 是 一 种 典型 的 分 类 算法 ， 首 先 利 用 
己 知 分 类 的 数据 构造 决策 树 ， 然 后 利用 测试 数据 集 对 决策 树 进 行 剪 枝 ， 
每 个 决策 树 的 叶子 都 是 一 种 分 类 , 最 后 利用 形成 的 决策 树 对 数据 进行 分 
类 。 决 策 树 的 典型 算法 有 ID3、C4.5、CART 等 。 决 策 树 算法 的 基本 步 
又 如 下 。 

@ 生成 决策 树 。 遍 历 训练 集 数据 ， 根 据 数 据 中 具有 分 类 能 力 的 属 
性 作为 决策 树 的 节点 ,不断 展 开 ， 直 到 该 节点 属于 一 个 叶子 节点 ,表明 
已 经 找到 分 类 结果 。 
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@ 决策 树 剪 枝 。 决 策 树 剪 枝 是 对 步骤 中 生成 的 决策 树 进行 校 验 
和 修正 , 使 用 测试 数据 集 对 分 类 过 程 中 产生 的 规则 进行 校 验 , 剪 掉 影响 
分 类 结果 准确 性 的 分 枝 。 

(2) 贝 叶 斯 分 类 算法 。 贝 叶 斯 分 类 算法 是 统计 学 的 一 种 方法 ， 其 
中 朴素 贝 叶 斯 算法 在 许多 情况 下 可 以 与 决策 树 和 神经 网 络 算法 相 媲美 ， 
而 且 方 法 简单 ， 准 确 度 高 ， 速 度 快 。 贝 叶 斯 算法 是 基于 贝 叶 斯 定理 的 ， 
而 贝 叶 斯 定理 假设 一 个 属性 值 对 给 定 类 的 影响 独立 于 其 他 属性 值 , 但 这 
种 假设 在 很 多 情况 下 是 不 成 立 的 , 因此 为 了 降低 这 个 假设 的 影响 , 产生 
了 很 多 改进 算法 ， 如 TAN (Tree Augmented Bayes Network) 算法 。 

在 朴素 贝 叶 斯 算法 中 , 将 每 个 样本 数据 分 为 n 个 属性 , 计算 每 个 属 
性 属于 分 类 Ci 的 概率 ， 根 据 假设 可 知 ， 所 有 属性 属于 分 类 Ci 之 积 即 为 
该 属性 属于 分 类 CG; 的 概率 ， 找 出 概率 的 最 大 值 ， 就 计算 出 该 属性 最 有 
可 能 属于 哪 一 个 类 别 。 

(3) 支持 向 量 机 。 支 持 向 量 机 (Support Vector Machine，SVM) 
是 建立 在 统计 学 理论 的 VC 维 理论 和 结构 风险 最 小 原理 基础 上 的 , 它 在 
解决 小 样本 、 非 线性 及 高 维 模式 识别 中 表现 出 许多 特有 的 优势 ， 并 能 够 
推广 应 用 到 函数 拟 合 等 其 他 机 器 学 习 问 题 中 。 支持 向 量 机 算法 将 在 后 面 
章节 做 详细 介绍 。 


2. 聚 类 算法 


聚 类 算法 不 同 于 分 类 算法 , 不 会 考虑 类 标号 , 这 是 因为 在 很 多 情况 
下 ,开始 并 不 存在 类 标号 。 聚 类 算法 可 以 根据 最 大 化 类 内 相似 性 、 最 小 
化 类 间 相 似 性 的 原则 进行 聚 类 或 分 组 , 这 样 就 形成 了 对 象 的 簇 , 同一 个 
簇 内 的 数据 具有 较 高 的 相似 性 ， 不 同 簇 之 间 的 数据 具有 较 低 的 相似 性 。 
常见 的 分 类 算法 有 KK-MEANS 算法 、K-MEDOIDS 算法 等 。 在 对 2016 
世界 幸福 报告 分 析 时 ,首先 对 不 同 国家 根据 幸福 指数 进行 聚 类 ， 再 用 不 
同 降 维 方法 在 二 维 空间 对 数据 进行 展示 , 最 后 分 析 国家 区 域 与 幸福 指数 
的 关系 。 


3. 关联 规则 


关联 规则 是 形 如 X 一 了 的 蕴涵 式 ， 了 和 了 分 别称 为 关联 规则 的 先导 
和 后 继 。 我 们 先 从 一 个 例子 中 感受 一 下 关联 规则 的 重要 性 。 

这 里 有 一 则 沃尔玛 超市 的 趣闻 。 沃尔玛 曾经 对 数据 仓库 中 一 年 多 的 
原始 交易 数据 进行 了 详细 的 分 析 , 发 现 与 尿布 一 起 被 购买 最 多 的 商品 竟 
然 是 啤酒 。 借 助 数据 仓库 和 关联 规则 ， 发 现 了 这 个 隐藏 在 背后 的 事实 : 
美国 的 妇女 经 常会 嘱 叭 丈夫 下 班 后 为 孩子 买 尿 布 ， 而 30%~40% 的 丈夫 
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在 买 完 尿布 之 后 又 要 顺便 购买 自己 爱 喝 的 啤酒 。 根据 这 个 发 现 , 沃尔玛 

调整 了 货架 的 位 置 ， 把 尿布 和 啤酒 放 在 一 起 销售 ， 大 大 增加 了 销量 。 
从 这 个 例子 中 我 们 感受 到 了 关联 规则 分 析 的 重要 性 , 而 关联 规则 一 

般 分 为 两 个 阶段 , 第 一 阶段 必须 先 从 数据 中 找 出 所 有 高 频 项 目 组 合 ， 

二 阶段 再 由 这 些 高 频 项 目 组 中 产生 关联 规则 。 常 用 的 关联 规则 算法 有 

Apriori 算法 、FP- 树 频 集 算法 等 。 


1.1.3 ”数据 挖掘 常用 工具 概述 


下 面 介绍 几 种 常用 的 数据 挖掘 工具 。 
1. Weka 软件 


Weka (Waikato Environment for Knowledge Analysis) 的 全 名 是 怀 卡 
托 智能 分 析 环 境 ， 是 一 款 免费 且 非 商业 化 的 数据 挖掘 软件 ， 也 是 基于 
Java 环境 下 开源 的 机 器 学 习 与 数据 挖掘 软件 。 Weka 的 源 代码 可 在 其 官 
方 网 站 下 载 。 它 集成 了 大 量 数据 挖掘 算法 ， 包 括 数据 预 处 理 、 分 类 、 聚 
类 、 关 联 分 析 等 。 用 户 既 可 以 使 用 可 视 化 界面 进行 操作 ， 也 可 以 使 用 
Weka 提供 的 接口 ， 实 现 自己 的 数据 挖掘 算法 。 图 形 用 户 界面 包括 Weka 
Knowledge Flow Environment 和 Weka Explorer。 用 户 也 可 以 使 用 Java 语言 
调用 Weka 提供 的 类 库 实现 数据 挖掘 算法 ， 这 些 类 库存 在 于 weka.jar 中 。 


2. Clementine (SPSS) 软件 


Clementine 是 SPSS 所 发 行 的 一 种 资料 探勘 工具 ， 集 成 了 分 类 、 聚 
类 和 关联 规则 等 算法 ，Clementine 提供 了 可 视 化 工具 ， 方 便 用 户 操作 。 
其 通过 一 系列 节点 来 执行 挖掘 过 程 ， 这 一 过 程 被 称 作 一 个 数据 流 ， 数 据 
流 上 面 的 节点 代表 了 要 执行 的 操作 。Clementine 的 资料 可 视 化 能 力 包含 
散布 图 、 平 面 图 及 Web 分 析 。 


3. KNIME 软件 


KNIME (Konstanz InformationMiner) 是 基于 Eclipse 开发 环境 来 精 
心 开发 的 数据 挖掘 工具 ， 可 以 扩展 使 用 Weka 中 的 数据 挖掘 算法 。 与 
Clementine 类 似 ，KNIME 使 用 类 似 数据 流 的 方式 实现 数据 挖掘 过 程 ， 
挖掘 流程 由 一 系列 功能 节点 组 成 ,每 个 节点 有 输入 、 输 出 端口 ， 用 于 接 
收 数据 或 模型 以 及 导出 结果 。 


4. RapidMiner 软件 
RapidMiner 在 2015 年 KDnuggets 举办 的 第 16 届 国 际 数据 挖掘 暨 
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分 析 软 件 投票 中 位 居 第 2, 仅 次 于 R 语言 。RapidMiner 具有 丰富 的 数据 
挖掘 分 析 和 算法 功能 ， 常 用 于 解决 各 种 商业 关键 问题 ， 如 资源 规划 、 营 
销 响应 率 等 。RapidMiner 提供 的 解决 方案 涉及 多 个 行业 与 领域 , 如 生命 
科学 、 制 造 业 、 石 油 、 保 险 、 汽 车 、 银 行 通信 等 。 不 过 ， 它 不 支持 分 析 
流程 图 方式 。 


5. 其 他 数据 挖掘 软件 


目前 流行 的 数据 挖掘 软件 还 有 Orange、Knime、Keel 等 ，Orange 
界面 简洁 ，Knime 可 同时 安装 Weka 和 及 扩展 包 ，Keel 可 以 为 一 系列 数 
据 运算 提供 算法 。 


1.2 ”数据 探索 


数据 挖掘 质量 的 高 低 与 数据 有 着 密切 的 关系 , 因此 与 数据 相关 的 问 

题 都 要 重视 和 学 习 。 本 节 主 要 探索 性 学 习 一 些 数 据 相 关 的 知识 。 

口 数据 类 型 。 用 来 描述 数据 对 象 的 属性 ， 具 有 不 同 的 类 型 ， 如 定 

量 的 或 定性 的 。 数 据 类 型 决定 了 在 数据 挖掘 中 使 用 何 种 工具 和 

技术 处 理 分 析 数 据 。 

口 数据 质量 。 想 要 完美 数据 几乎 是 不 可 能 的 ， 但 采集 到 高 品质 数 
据 可 以 提高 分 析 结 果 的 质量 。 在 解决 数据 质量 问题 时 ， 要 考虑 
到 存在 噪声 和 离 群 点 、 数 据 遗 漏 、 重 复 等 问题 。 

口 数据 挖掘 前 预 处 理 。 一 般 情 况 下 ， 原 始 数据 要 加 以 处 理 后 才 适 
合 于 挖掘 和 分 析 。 提 高 数据 质量 的 同时 要 让 数据 能 被 相关 数据 
挖掘 技术 或 工具 加 工 。 

口 数据 分 析 。 找 出 数据 对 象 之 间 的 联系 ， 通 过 这 些 联系 进行 相关 
的 分 析 。 例 如 ， 计 算 对 象 之 间 的 相似 度 或 距离 ， 根 据 相似 度 或 
距离 进行 分 析 一 一 聚 类 、 分 类 或 异常 检测 等 。 


1.2.1 数据 概述 





数据 集 是 数据 对 象 的 集合 。 数 据 对 象 又 叫 作 点 、 记 录 、 向 量 、 事 件 、 
案例 、 样 本 、 模 式 、 观 测 或 实体 。 数据 对 象 用 一 组 刻画 对 象 基本 特性 〈 如 
物体 质量 或 事件 发 生 的 时 间 ) 的 属性 描述 。 属 性 又 称 为 维 、 变 量 、 特 性 、 
字段 、 特 征 。 


1. 属性 
属性 是 指 对 象 的 性 质 、 特 性 或 特征 ， 随 着 对 象 不 同 而 不 同 ， 或 随时 
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间 变 化 而 变化 。 

(1) 区 分 属性 可 根据 属性 可 能 取 值 的 个 数 来 判断 。 

口 ”离散 的 。 离 散 属性 是 有 限 或 无 限 可 数 个 值 。 属 性 可 以 是 分 类 
的 ， 如 邮政 编码 或 ID 号 ， 还 可 以 是 数值 的 ， 如 计数 。 一 般 离 
散 属性 用 整数 变量 表示 。 二 元 属性 是 离散 属性 的 一 种 特殊 情 
况 ， 并 只 接受 两 个 值 ， 如 真 / 假 、 是 / 否 、 男 / 女 或 0/1。 通 常 ， 
二 元 属性 用 布尔 变量 表示 ， 或 者 用 只 取 两 个 值 0 或 1 的 整 型 变 
量 表示 。 

口 连续 的 。 连 续 属性 是 取 实 数值 的 属性 ， 如 温度 、 高 度 或 重量 等 
属性 。 一 般 连 续 属性 用 浮 点 变量 表示 。 数 据 分 析 中 实数 值 只 能 
用 有 限 的 精度 测量 和 表示 。 

(2) 非 对 称 的 属性 。 非 对 称 的 属性 出 现 非 零 属性 值 才 是 重要 的 。 
例如 ， 现 有 一 个 数据 集 ， 其 中 一 个 学 生 是 一 个 对 象 ， 而 每 个 属性 记录 学 
生 是 否 选修 大 学 的 某 课程 。 对 于 某 个 学 生 ， 如 果 他 选修 了 对 应 于 某 属 性 
的 课程 ， 该 属性 取 值 1， 否 则 取 值 0。 学 生 只 选修 所 有 可 选课 程 中 的 很 
小 一 部 分 ， 这 种 数据 集 的 大 部 分 值 为 0。 分 析 属 性 为 非 零 值 将 更 有 效 。 
反之 , 分 析 学 生 们 不 选修 的 课程 上 ， 则 大 部 分 学 生 都 非常 相似 。 只 有 非 
零 值 才 重要 的 二 元 属性 是 非 对 称 的 二 元 属性 。 这 类 属性 对 于 关联 分 析 特 
别 重 要 ， 同 时 有 离散 的 或 连续 的 非 对 称 特征 。 例 如 ， 如 果 记 录 每 门 课程 
的 学 分 ， 则 结果 数据 集 将 包含 非 对 称 的 离散 属性 或 连续 属性 。 


2. 数据 集 的 一 般 特性 


数据 集 一 般 具 有 3 个 特性 ， 分 别 是 维度 、 稀 朴 性 和 分 辩 率 ， 它 们 对 
数据 挖掘 有 重要 影响 。 

(1) 维度 。 数 据 集 的 维度 是 数据 集中 的 对 象 具有 的 属性 数目 。 低 
维度 数据 与 中 维度 、 高 维度 数据 有 本 质 的 差异 。 在 分 析 高 维 数据 集 时 容 
易 陷 入 维 灾难 中 , 因此 ， 数 据 预 处 理 的 一 个 重要 环节 是 降 维度 ， 称 为 维 
归 约 。 

(2) 稀疏 性 。 数 据 集会 具有 非 对称 特 征 ， 一 个 对 象 的 大 部 分 属性 
上 的 值 都 为 0， 通 常情 况 非 零 项 还 不 到 1%。 稀 疏 性 是 一 个 优点 ， 只 需 
存储 和 处 理 数 据 是 非 零 值 ， 这 会 节省 大 量 运 算 时 间 和 存储 空间 。 

(3) 分 辨 率 。 在 不 同 的 分 辨 率 中 采集 到 的 数据 不 同 ， 并 且 在 不 同 
的 分 辩 率 中 数据 的 性 质 也 不 同 。 例 如 ， 在 几米 的 分 辨 率 下 ， 地 球 表面 看 
上 去 起 伏 不 平 , 但 若 在 几 十 千 米 的 分 辨 率 下 却 相对 平坦 。 数据 的 模式 同 
样 依赖 于 分 辩 率 。 如 果 分 辨 率 太 高 ,模式 可 能 看 不 出 , 或 者 掩埋 在 噪声 
中 ; 如 果 分 辩 率 太 低 ， 模 式 可 能 无 法 呈现 。 例 如 ， 几 小 时 记录 一 下 气压 
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变化 可 以 反映 出 风暴 等 天 气 云 图 的 移动 ,而 在 月 的 标 度 下 ,这些 现象 就 
检测 不 到 。 


3. 较 常 见 的 数据 类 型 


较 常见 的 数据 类 型 还 有 以 下 几 种 。 
口 表格 : 经 典 的 数据 类 型 。 在 表格 数据 中 ， 一 般 行 代表 样本 ， 列 
代表 特征 。 
口 点 集 : 数据 中 有 很 多 都 可 看 成 是 某 种 空间 的 点 的 集合 。 
口 ”时间 序列 : 文本 、 语 音 、DNA 序列 等 可 看 成 是 时 间 序列 ， 也 
可 以 是 一 个 时 间 变 量 的 函数 。 
口 图 像 ， 可 以 是 两 个 变量 的 函数 。 
口 “视频 : 时 间 和 空间 坐标 的 函数 。 
口 ”网 页 : 网 页 上 的 每 篇 文章 可 以 是 时 间 序列 ， 同 时 整个 网 页 又 具 
有 空间 结构 。 
口 网络 数据 : 网 络 数据 本 质 上 是 图 , 由 节点 和 联系 节点 的 边 构成 。 
当然 还 要 考虑 更 高 层次 的 数据 , 描述 数据 对 象 的 属性 且 数据 集会 具 
有 特定 的 性 质 ， 如 图 像 集 、 时 间 序 列 集 、 表 格 序列 等 。 数 据 挖掘 研究 是 
为 了 适应 新 的 应 用 领域 和 新 的 数据 类 型 的 需要 而 展开 的 。 


1.2.2 ”数据 质量 





数据 在 收集 时 并 没有 明确 用 途 和 目的 , 这 使 得 数据 挖掘 不 能 在 收集 
数据 之 初 控 制 质量 ， 这 就 使 得 数据 质量 问题 无 法 避免 。 因 此 在 进行 数据 
挖掘 时 需要 注重 两 个 问题 : 一 是 数据 质量 检测 及 纠正 ， 即 是 数据 清理 ; 
二 是 在 使 用 算法 时 应 用 能 允许 低 质 量 数据 的 算法 。 可 见 数据 质量 关注 的 
重点 是 测量 和 数据 收集 问题 。 

数据 采集 中 可 能 会 存在 测量 设备 限制 、 人 为 错误 、 数 据 收集 方式 的 
漏洞 等 导致 数据 质量 问题 , 例如 ,数据 值 的 丢失 或 是 整个 数据 对 象 都 可 
能 会 丢失 ,因而 完美 的 数据 是 很 难 存 在 的 。 甚至 有 时 会 有 不 真实 的 或 重 
复 的 对 象 ， 即 对 应 于 单个 “实际 ”对 象 出 现 了 多 个 数据 对 象 。 例 如 ， 以 
同一 个 人 为 对 象 , 在 一 周 内 出 差 住 过 两 个 不 同 地 域 的 酒店 , 酒店 所 有 记 
录 数 据 都 有 , 没有 丢失 , 但 对 于 同一 个 人 其 信息 数据 都 有 可 能 出 现 两 个 
不 同 的 数据 记录 。 

下 面 将 介绍 3 方面 的 内 容 : (1) 什么 是 测量 误差 ? 什么 是 数据 收集 
错误 ? (2) 什么 是 测量 误差 中 的 噪声 、 准 确 率 和 精度 ? (3) 讨论 关于 
遗漏 、 离 群 点 和 重复 数据 。 
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1. 什么 是 测量 误差 ? 什么 是 数据 收集 错误 ? 


测量 误差 是 测量 中 测量 结果 与 实际 值 之 间 的 差 值 。 真实 值 是 客观 存 
在 的 , 是 在 一 定时 间 及 空间 条 件 下 体现 事物 的 真实 数值 , 但 两 者 之 间 总 
是 或 多 或 少 存在 一 定 的 差异 ， 这 就 是 测量 误差 。 一 个 常见 的 问题 是 : 在 
某 种 程度 上 ， 记 录 的 值 与 实际 值 不 同 。 

数据 收集 错误 是 指 收集 数据 时 遗漏 数据 对 象 或 属性 值 , 或 包含 了 其 
他 数据 对 象 等 情况 。 测量 误 差 及 数据 收集 错误 由 客观 因素 或 人 为 因素 造 
成 。 但 有 一 些 错误 是 可 以 借助 检测 技术 和 手段 进行 纠正 ， 如 键盘 录入 数 
据 时 出 现 的 错误 就 可 以 通过 检测 技术 提醒 或 纠正 人 为 的 录入 错误 。 


2. 什么 是 噪声 ? 


噪声 ， 从 物理 角度 ， 是 指 波形 不 规则 的 声音 ;从 数据 采集 角度 ， 是 
指 测量 误差 的 随机 部 分 。 这 可 能 涉及 值 被 扭曲 或 加 入 了 不 相关 对 象 。 

噪声 包含 时 间 和 空间 的 数据 。 通常 使 用 信号 或 图 像 处 理 技术 降低 噪 
声 ， 以 便 发 现 可 能 “淹没 在 噪声 中 ”的 信号 数据 。 但 想 完全 消除 噪声 是 
很 困难 的 。 如 何 能 在 噪声 干扰 下 产生 可 以 接受 的 挖掘 应 用 ， 目 前 应 用 较 
多 的 是 设计 具有 和 鲁 棒 性 的 算法 〈 和 鲁 棒 性 是 控制 系统 在 一 定 结构 、 大 小 等 
参数 干扰 下 ， 维 持 某 些 性 能 的 特性 ， 有 稳定 鲁 棒 性 和 性 能 鲁 棒 性 )。 


3. 什么 是 精度 和 准确 率 ? 


数据 集 不 包含 数据 精度 内 容 , 分 析 的 程序 返回 的 结果 也 没有 。 数 据 
挖掘 分 析 由 于 缺乏 对 数据 和 结果 准确 率 的 关注 , 就 会 在 进行 数据 分 析 中 
出 现 较 大 的 错误 或 是 偏差 。 

假定 对 相同 的 基本 量 进行 反复 测量 , 测量 值 集合 后 算 均 值 ( 即 平均 
值 )， 作 为 实际 值 的 估计 。 

精度 (同一 个 基本 量 ) 是 重复 测量 值 之 间 的 近似 程度 ,一 般 用 值 集 
合 的 标准 差 度量 。 例 如 ，1 克 质 量 的 标准 实验 室 重量 ， 要 评估 实验 室 的 
新 天 秤 的 精度 。 共 称 重 5 次 , 得 到 的 值 分 别 为 1.014、0.991、1.012、1.001 
和 0.987。 这 些 值 的 均值 是 1.001。 而 用 标准 差 度量 ， 精 度 是 0.013 。 

准确 率 从 实验 角度 是 指 在 一 定 实验 条 件 下 的 多 个 测定 值 中 , 满足 限 
定 条 件 的 测定 值 所 占 的 比例 ， 常 用 符合 率 来 表示 。 

准确 率 的 有 效 数字 使 用 , 其 目标 是 数据 精度 所 能 确定 的 数字 位 数 表 
示 测 量 或 计算 结果 。 

4. 遗漏 

对 一 个 研究 对 象 进行 数据 采集 时 , 遗漏 一 个 或 多 个 属性 值 的 情况 会 
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时 有 发 生 。 还 有 可 能 会 出 现 信息 收集 不 全 的 情况 ,如 在 收集 个 人 信息 数 
据 时 有 人 拒绝 透露 年 龄 或 体重 。 

如 何 处 理 遗 漏 值 的 情况 呢 ? 

运用 不 同 遗 漏 值 处 理 策略 来 处 理 , 要 注意 不 同 策略 适用 于 哪 种 特定 
的 情况 。 

(1) 删除 数据 对 象 或 属性 。 删 除 具 有 遗漏 值 的 数据 对 象 是 一 种 简 
单 有 效 的 策略 , 它 的 难点 在 于 如 何 做 到 被 删除 的 属性 不 是 分 析 中 至 关 重 
要 的 属性 。 

(2) 估计 遗漏 值 。 遗 漏 值 是 能 可 靠 地 被 估计 出 来 的 。 例 如 ， 考 虑 
一 个 具有 许多 相似 数据 点 的 数据 集 , 与 具有 遗漏 值 的 点 邻近 的 点 属性 值 
就 能 估计 遗漏 的 值 。 


5. 离 群 点 


离 群 点 又 称 歧义 值 或 异常 值 , 离 群 点 从 数理 统计 角度 是 指 一 个 时 间 
序列 中 ,远离 序列 一 般 水 平 的 极端 大 值 和 极端 小 值 。 在 某 种 意义 上 具有 
不 同 于 数据 集中 其 他 大 部 分 数据 对 象 的 特征 的 数据 对 象 。 

在 数据 挖掘 中 ,要 能 区 别 噪声 和 离 群 点 。 离 群 点 可 以 是 合法 的 数据 
对 象 或 值 ， 它 本 身 可 能 会 是 研究 的 对 象 。 例 如 ， 在 欺诈 和 网 络 攻击 检测 
中 , 目标 就 是 从 大 量 正常 对 象 或 事件 中 发 现 不 正常 的 对 象 和 事件 。 在 股 
票 价格 序列 中 , 由 于 受 某 项 政策 出 台 或 某 种 谣传 的 刺激 , 都 会 出 现 极 增 、 
极 减 情况 ， 变 现 就 是 序列 中 的 离 群 点 。 


6. 重复 数据 


数据 集中 , 会 出 现 两 个 或 多 个 对 象 在 数据 库 的 属性 度量 相同 ， 只 是 
代表 对 象 不 同 ， 这 种 重复 是 允许 的 。 为 了 检测 重复 或 删除 无 效 重复 ， 要 
处 理 两 个 主要 问题 : 一 是 两 个 对 象 实际 是 同一 个 对 象 , 则 对 应 的 属性 值 
出 现 不 同 , 要 解决 这 些 不 一 致 的 值 ; 二 是 需要 避免 发 生 将 两 个 相似 不 重 
复 的 数据 对 象 ( 如 两 个 人 同名 同姓 ) 合并 在 一 起 , 即 是 通常 说 的 去 重复 。 

以 上 介绍 了 关于 数据 采集 中 出 现 的 影响 数据 质量 的 问题 , 下 面 从 应 
用 角度 介绍 影响 数据 质量 的 两 个 常见 问题 。 

(1) 时 效 性 。 例 如 顾客 的 购买 行为 或 Web 浏览 模式 只 代表 有 限时 
间 内 的 真实 情况 。 在 数据 采集 后 就 开始 过 时 , 则 基于 数据 的 模型 和 模式 
就 跟着 过 时 。 

(2) 相关 性 。 在 被 挖掘 的 分 析 数 据 集中 须 包 含 应 用 所 需要 的 所 有 
信息 。 例 如 为 预测 交通 事故 发 生 率 构 建 模型 时 ， 须 包含 驾驶 员 的 年 龄 、 
性 别 等 信息 ， 和 否则 模型 的 精度 是 有 限 的 ， 得 到 的 结论 也 会 有 偏差 。 
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1.2.3 ”数据 预 处 理 


数据 预 处 理 是 指数 据 在 采用 中 应 做 哪些 预 处 理 步 又 才 可 以 让 数据 
更 加 适合 加 工分 析 。 以 下 将 讨论 一 些 重要 且 相 关 的 方法 。 


1. 聚集 


聚集 是 将 两 个 或 多 个 对 象 合并 成 单个 对 象 。 例 如 ， 一 个 由 事务 〈 数 
据 对 象 ) 组 成 的 数据 集 ， 它 记录 一 年 中 不 同日 期 在 各 地 (北京 、 上 海 、 
重庆 、 杭 州 、 贵 阳 …… ) 商店 的 商品 日 销售 情况 ， 如 表 1-1 所 示 。 对 该 
数据 集 的 事务 进行 聚集 ， 就 是 用 一 个 商店 事务 替换 该 商店 的 所 有 事务 。 
将 每 天 出 现在 一 个 商店 的 多 个 事务 记录 归 约 成 单个 日 事务 , 而 数据 对 象 
的 个 数 减少 为 商店 的 个 数 。 
表 1-1 各 地 商店 的 商品 日 销售 情况 


事物 ID 商店 所 在 地 销售 价格 (元 ) 
| 


20170120 2017-10-10 | 30000.00 
20170120 2017-10-10 | 120000.00 
20170121 2017-10-10 | 7000.00 





聚集 是 删除 属性 〈 如 商品 类 型 ) 的 过 程 ， 或 者 是 压缩 特定 属性 不 同 
值 个 数 的 过 程 ， 如 将 日 期 的 可 能 值 从 365 天 压缩 到 12 个 月 。 相 对 于 被 
聚集 的 单个 对 象 ， 如 平均 值 、 总 数 等 聚集 量具 有 较 小 的 变异 性 。 聚 集 的 
缺点 是 可 能 丢失 一 些 细节 , 在 商店 的 例子 中 , 按 月 的 聚集 就 丢失 了 星期 
几 具 有 最 高 销售 额 的 信息 。 


2. 抽样 


在 统计 学 中 ,抽样 长 期 用 于 数据 的 事先 调查 和 最 终 的 数据 分 析 。 在 
数据 挖掘 中 ,抽样 同样 可 以 实现 较 好 的 效果 , 因此 选择 适当 的 样本 容量 
和 抽样 技术 是 很 重要 的 。 

(1) 抽样 方法 。 简 单 随机 抽样 时 ， 是 选取 任何 特定 项 的 概率 是 相 
等 的 。 随 机 抽样 有 两 种 变形 : 无 放 回 抽样 一 每 个 选中 项 立即 从 构成 总 
体 的 所 有 对 象 集中 删除 ， 有 放 回 抽样 一 对 象 被 选中 时 不 从 总 体 中 删 
除 。 在 有 放 回 抽样 中 ， 相 同 的 对 象 可 能 被 多 次 抽出 。 相 对 来 说 ， 有 放 回 
抽样 较为 简单 ， 因 为 在 抽样 过 程 中 ， 每 个 对 象 被 选中 的 概率 保持 不 变 。 

(2) 渐进 抽样 。 在 合适 的 样本 容量 难以 确定 时 ， 需 要 使 用 渐进 抽 
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样 〈 即 自 适应 ) 方法 。 它 是 从 一 个 小 样本 开始 ， 逐 渐 增 加 样本 容量 直至 
得 到 足够 容量 的 样本 。 假 定 使 用 渐进 抽样 来 构建 一 个 预测 模型 ， 其 准确 
率 随 样 本 容量 增加 而 增加 , 但 是 在 某 一 点 准确 率 的 增加 趋 于 稳定 , 于 是 
在 稳定 点 停止 增加 样本 容量 。 


3. 维 归 约 


维 归 约 是 指 通过 创建 新 属性 , 将 原来 的 一 些 属性 合并 在 一 起 来 降低 
数据 集 的 维度 。 由 原来 属性 的 子 集 得 到 新 属性 ， 这 种 维 归 约 称 为 特征 子 
集 选择 或 特征 选择 。 

维 归 约 的 优势 在 于 ， 删 除 不 相关 的 特征 并 降低 噪声 ， 使 模型 更 容易 理 
解 ， 更 容易 让 数据 可 视 化 ， 还 可 以 降低 数据 挖掘 算法 的 时 间 和 内 存 需 求 。 


4. 维 灾难 


维 灾难 是 指 随 着 数据 维度 的 增加 ,数据 分 析 变 得 异常 困难 。 尤 其 是 
随 着 维度 增加 ， 数 据 所 占据 的 空间 越 来 越 稀疏 。 对 于 分 类 ， 这 可 能 意味 
着 没有 足够 的 数据 对 象 来 创建 模型 , 将 所 有 可 能 的 对 象 可 靠 地 指派 到 一 
个 类 ; 对 于 聚 类 ,点 之 间 的 密度 和 距离 的 定义 失去 了 意义 。 对 于 高 维 数 
据 分 类 ， 准 确 率 降低 ， 聚 类 质量 下 降 。 


5. 维 归 约 的 线性 代数 技术 


维 归 约 最 常用 的 方法 是 使 用 线性 代数 技术 将 数据 由 高 维 空间 投影 
到 低 维 空间 , 特别 是 对 于 连续 数据 。 主 成 分 分 析 是 一 种 用 于 连续 属性 的 
线性 代数 技术 ， 它 找 出 新 的 属性 〈 主 成 分 )， 这 些 属性 是 原 属性 的 线性 
组 合 ， 并 且 捕 获 了 数据 的 最 大 变 差 。 


1.3 ”数据 挖掘 的 应 用 
1.3.1 数据 挖掘 现状 及 发 展 趋势 


就 目前 而 言 ， 大 数据 的 来 源 是 通过 各 种 数据 采集 器 、 数 据 库 、 开 源 
的 数据 发 布 、GPS 信息 、 网 络 痕迹 〈 搜 索 记 录 、 购 物 等 )、 传 感 器 收集 、 
用 户 保存 等 结构 化 、 半 结构 化 、 非 结构 化 的 数据 。 如 此 广泛 地 存在 ， 数 
据 挖掘 的 应 用 已 变 成 必然 。 数 据 挖掘 应 用 源 于 统计 学 中 的 抽样 、 估 计 、 
假设 检验 ; 人工 智能 、 模 式 识别 、 机 器 学 习 、 建 模 技术 和 学 习 理 论 ， 以 
及 最 优化 、 进 化 计算 、 信 息 论 、 可 视 化 等 方面 。 

现在 ， 国 内 数据 挖掘 研究 更 多 地 体现 在 数据 相关 算法 及 工具 使 用 、 
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数据 挖掘 的 实际 应 用 和 数据 挖掘 理论 几 个 方面 。 尽管 有 不 少数 据 挖掘 方 
面 的 论文 ， 但 能 与 产业 、 企 业 发 展 深度 融合 的 不 多 ， 能 与 行业 多 维度 结 
合 的 更 是 凤毛麟角 。 

在 数据 挖掘 带 来 价值 的 影响 力 越 来 越 大 时 , 各 领域 企业 纷纷 积极 参 
与 其 中 ， 以 期 望 获得 巨额 的 回报 。 目 前 国内 各 个 行业 对 数据 挖掘 都 有 一 
定 的 研究 , 尽管 国内 暂时 还 没有 数据 挖掘 行业 本 身 正 式 官方 的 市 场 统计 
分 析 报 告 , 但 随 着 数据 量 的 日 益 积 累 以 及 各 类 算法 、 工 具 的 深度 而 广泛 
应 用 ， 国 内 的 数据 挖掘 将 在 今后 2~4 年 间 形 成 一 系列 的 产业 。 

数据 挖掘 是 数据 处 理 的 核心 技术 , 国内 数据 挖掘 相关 专业 的 人 才 培 
养 体 系 尚 在 建立 的 过 程 中 , 精通 数据 挖掘 技术 、 商 业 智 能 应 用 的 人 才 太 
少 。 企业 、 政府 机 构 和 科研 单位 对 此 类 人 才 的 需求 量 极 大 , 缺口 也 极 大 。 
数据 挖掘 的 发 展 趋势 包括 以 下 几 点 。 

第 一 ， 语 言 标准 化 。 使 语言 描述 形式 化 、 标 准 化 ， 即 研究 专门 用 于 
知识 发 现 的 数据 挖掘 语言 。 

第 二 ， 实 施 标准 化 。 即 真正 的 可 视 化 数据 挖掘 ， 在 知识 发 现 过 程 中 
使 人 机 交互 更 便捷 (建立 数据 挖掘 过 程 中 的 可 视 化 方法 , 使 知识 发 现 的 
过 程 能 够 被 用 户 理解 )。 

第 三 ，Web 数据 挖掘 。 建 立 DMKD (数据 挖掘 和 知识 发 现 ) 服务 
器 ， 与 数据 库 服 务 器 配合 ， 实 现 Web Mining。 

第 四 , 实现 多 媒体 数据 挖掘 ,多 媒体 数据 是 一 种 多 维 的 、 半 结构 化 、 
非 结 构 化 等 形式 的 数据 ， 如 对 文本 数据 、 图 文 数据 、 视 屏 图 像 数 据 、 声 
音 数 据 、 综 合 多 媒体 数据 等 。 


1.3.2 ”数据 挖掘 需要 解决 的 问题 


在 面 对 大 量 非 结 构 、 半 结构 数据 集 带 来 的 问题 时 ， 传 统 的 数据 分 析 
技术 和 方法 常常 遇 到 很 多 的 问题 甚至 是 困境 , 这 也 是 要 进行 真正 数据 挖 
掘 需要 解决 的 问题 。 


1. 算法 延展 性 


算法 延展 性 即 为 算法 弹性 ， 随 着 数据 产生 、 采 集 技 术 的 快速 进步 ， 
以 GB、TB、PB (1GB=1024MB，1TB=1024GB，1PB=1024TB) 为 单 
位 的 数据 集 越 来 越 普遍 。 如 果 数 据 挖掘 算法 要 处 理 这 些 海量 数据 集 ， 则 
算法 必须 具有 较 好 的 延展 性 。 许 多 数据 挖掘 算法 使 用 不 同 的 检索 方法 来 
处 理科 学 指数 级 的 检索 问题 。 为 了 实现 延展 性 ， 需 建立 新 的 数据 结构 ， 
才能 以 有 效 的 方式 访问 每 个 记录 。 例如 ， 当 要 处 理 的 数据 不 能 放 进 内 存 
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时 , 可 能 需要 非 内 存 算法 , 使 用 抽样 技术 或 开发 并 行 和 分 布 算 法 来 提高 
延展 性 。 


2. 高 维 性 


在 以 前 的 数据 库 构 成 中 只 有 少量 属性 的 数据 集 , 现在 大 数据 集群 构 
成 中 是 具有 成 百 上 干 属性 的 数据 集 。 例 如， 生物 信息 学 领域 中 微 阵列 技 
术 的 进步 已 经 产生 了 涉及 数 干 特征 的 基因 表达 数据 。 另 外 ， 带 有 时 间 、 
空间 分 量 的 数据 集 也 具有 高 维度 。 例 如, 包含 不 同 地 区 的 温度 测量 结果 
的 数据 集 ， 若 在 一 个 相当 长 的 时 间 周 期 内 反复 地 测量 ， 维 度 〈 特 征 数 ) 
的 增长 与 测量 的 次 数 成 正比 。 传 统 的 数据 分 析 技 术 在 解决 少量 维度 数据 
集 问题 时 还 有 尚 佳 的 表现 ， 但 在 处 理 高 维 数据 集 问题 时 几乎 无 能 为 力 。 
与 此 同时 可 以 看 到 ， 对 于 某 些 数据 分 析 算法 ， 随 着 维度 〈 特 征 数 ) 的 增 
加 ， 计 算 的 复杂 性 可 能 会 以 指数 级 迅速 增加 。 

维 数 高 带 来 的 是 维 数 灾难 , 那么 怎样 克服 这 个 困难 呢 ? 通常 有 两 类 
方法 : 一 类 方法 是 将 数学 模型 限制 在 一 个 极 小 的 特殊 类 中 , 如 线性 模型 ; 
另 一 类 方法 是 利用 数据 可 能 存在 的 特殊 结构 , 如 稀疏 性 、 低 维 或 低 秩 性 、 
光滑 性 等 。 


3. 多 种 而 复杂 的 数据 


在 传统 数据 分 析 方 法 里 只 处 理 包含 相同 类 型 属性 的 数据 集 , 或 者 是 
连续 的 ， 或 者 是 分 类 的 。 随 着 数据 挖掘 在 商务 、 科 学 、 医 学 、 交 通 、 治 
安 等 各 个 领域 的 作用 越 来 越 大 时 ， 这 就 需要 能 够 处 理 多 种 属性 的 技术 。 
随 着 应 用 程度 加 深 、 应 用 维度 加 宽 , 更 复杂 的 数据 对 象 不 断 涌现 。 例 如， 
含有 半 结 构 化 文本 和 超 链接 的 Web 页 面 集 、 具 有 序列 和 三 维 结构 的 
DNA 数据 、 包 含 地 球 表面 不 同位 置 上 的 时 间 序 列 测量 值 ( 温 度 、 气 压 
等 ) 的 气象 数据 等 。 为 挖掘 这 种 复杂 对 象 而 开发 的 技术 应 当 考虑 数据 中 
的 关联 性 ， 如 时 间 和 空间 的 自 相 关 性 、 图 的 连通 性 、 半 结构 化 文本 和 
XML 文档 中 元 素 之 间 的 联系 。 


4. 数据 的 所 有 权 与 分 布 


现在 经 常会 有 这 样 的 状况 ， 需 要 分 析 的 数据 并 非 存 放 在 一 个 站 点 ， 
或 归属 一 个 机 构 , 而 是 地 理 或 空间 分 布 在 属于 多 个 机 构 的 资源 中 。 这 就 
需要 开发 并 应 用 分 布 式 数据 挖掘 技术 , 分 布 式 数据 挖掘 算法 面临 的 主要 
挑战 包括 降低 执行 分 布 式 计算 所 需 的 通信 和 量 、 有 效 地 统一 从 多 个 资源 得 
到 的 数据 挖掘 结果 和 数据 安全 性 等 方面 问题 。 
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5. 非 传统 的 分 析 


统计 方法 的 传统 方法 是 基于 先 提出 一 种 假设 , 然后 检验 , 即 提出 一 
种 假设 , 再 设计 实验 来 收集 数据 ， 然 后 以 假设 为 基础 分 析 数 据 。 但 当前 
的 数据 分 析 任 务 会 产生 和 评估 数 千 种 假设 , 单 赁 传统 统计 方法 很 难 快速 
有 效 地 完成 任务 , 这 就 促使 我 们 开发 新 的 数据 挖掘 技术 来 高 效 地 、 自 动 
地 产生 和 评估 假设 。 另外 , 数据 挖掘 分 析 的 数据 集 一 般 不 是 精心 设计 的 
实验 结果 ， 通 常 是 数据 的 时 机 性 样本 ， 而 不 是 随机 样本 。 其 中 数据 集 通 
常 是 非 传统 的 数据 类 型 和 数据 分 布 。 


1.3.3 ”数据 挖掘 的 应 用 场景 


数据 挖掘 的 应 用 场景 涉足 各 行 各 业 、 各 个 领域 , 其 目标 是 服务 于 市 
场 需求 。 下 面 将 介绍 数据 挖掘 的 应 用 场景 。 


1. 商业 数据 挖掘 应 用 场景 


当 客 户 初次 了 解 我 们 的 产品 和 服务 后 ， 有 可 能 会 犹豫 不 决 ， 甚 至 会 
观望 很 久 才 可 能 真正 成 为 我 们 的 客户 , 而 大 部 分 客户 在 这 期 间 会 由 于 兴 
趣 逐 渐 减 退 而 最 终 流 失 。 例 如 ， 信 用 卡 新 客户 在 填 好 个 人 信息 ， 并 收 到 
信用 卡 后 却 迟 迟 没 有 开 卡 。 这 时 就 可 以 运用 数据 挖掘 技术 ,对 营销 人 员 
得 到 的 客户 基本 信息 进行 一 个 初步 筛选 , 找 出 购买 倾向 性 较 高 的 客户 进 
行 深 度 跟踪 营销 。 这 么 做 既 减 少 了 人 工 成 本 , 又 降低 了 打扰 客户 的 次 数 ， 
从 而 减少 了 投诉 。 同 时 在 与 潜在 客户 的 交流 中 , 也 会 为 其 制定 更 个 性 化 
的 产品 或 服务 组 合 。 

电话 营销 、 电 视 广 告 投 放 和 平面 宣传 等 是 商业 机 构 用 来 宣传 自己 的 
产品 和 服务 的 营销 手段 , 目的 在 于 更 加 精准 和 有 效 地 将 产品 推送 给 潜在 
客户 ， 以 提高 收益 。 葡 萄 牙 一 家 银行 通过 电话 营销 的 方式 推广 其 银行 定 存 
产品 (官方 网 址 : https://archive.ics.uci.edu/ml/datasets/Bank+Marketing )， 
数据 集 一 共 包 含 45211 个 样本 , 包括 客户 基本 信息 、 营 销 活 动 信息 和 社 
会 经 济 环境 信息 在 内 的 17 个 特征 ， 目 标 特征 为 客户 是 否 订 购 产 品 。 客 
户 基 本 信息 包括 年 龄 、 职 业 、 婚 姻 状 态 、 教 育 程度 、 房 产 和 贷款 等 。 营 
销 活动 信息 包括 通话 方式 、 通 话 次 数 和 上 次 营销 结果 等 。 社 会 经 济 环境 
信息 包括 就 业 变化 率 、 居 民 消费 价格 指数 和 消费 者 信息 指数 等 。 经 过 一 
系列 的 数据 挖掘 算法 和 工具 ,发 现 当 业务 员 联系 客户 的 次 数 少时 ， 客 户 
更 倾向 于 订购 产品 ， 因 此 银行 应 控制 业务 员 联系 客户 的 次 数 。 

在 销售 策略 制定 中 ,可 以 通过 数据 挖掘 产品 之 间 的 关联 性 ， 从 中 发 
现 产品 销售 中 预期 不 到 的 模式 。 例 如 ,“ 啤 酒 与 尿布 ”的 故事 就 是 从 客 
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户 在 超市 的 购物 记录 中 获取 的 。 这 种 技术 目前 被 广泛 运用 在 零售 业 、 银 
行 、 保 险 等 领域 ， 大 家 对 京东 商城 的 推荐 产品 和 淘宝 的 “ 猜 你 喜欢 ”两 
个 模块 应 该 有 深刻 的 印象 吧 ， 这 两 个 模块 都 是 对 这 个 主题 的 运用 。 


2. 智慧 交通 数据 挖掘 应 用 场景 


应 用 电子 地 图 导航 ， 将 用 户 出 行 数 据 进行 分 析 ， 从 而 可 以 预测 不 同 
城市 之 间 的 人 口 迁 移 情况 ,或 者 某 个 城市 内 群体 出 行 的 态势 。 例 如 春运 
期 间 的 交通 调整 。 

国内 道路 在 监控 上 的 投入 很 大 ,“ 十 二 五 ”高 速 视频 监控 点 建设 实 
现 了 京 津 地 区 全 覆盖 ,监控 摄像 头 数 量 每 年 增加 20%。 通 过 数据 挖掘 的 
应 用 可 以 构建 大 交通 管理 , 让 出 行 变 得 更 智慧 ,同时 还 能 够 为 社会 构建 
大 治安 管理 ， 让 我 们 的 社会 更 安全 。 

移动 场景 中 的 位 置信 息 : 可 以 利用 这 样 的 位 置信 息 对 其 中 的 搜索 进 
行 精 确定 位 ， 从 而 提供 更 加 准确 的 基于 地 理 信息 的 搜索 。 

现在 很 常见 的 应 用 场景 ， 如 国内 自驾 游 中 ， 到 了 一 个 陌生 的 城市 、 
地 域 、 景 区 ， 完 全 可 以 依赖 现 有 手机 APP 中 的 高 德 地 图 、 百 度 地 图 等 
进行 导航 。 这 些 导航 甚至 可 以 用 来 为 人 们 提供 每 天 出 门 上 班 、 上 学 选择 
一 条 交通 顺畅 的 道路 出 行 。 这 些 都 让 人 们 的 生活 更 便捷 、 更 智慧 ! 

货车 帮 一 一 中 国 最 大 的 公路 物流 互联 网 信息 平台 , 建立 了 中 国 第 一 
张 履 盖 全 国 的 货源 信息 网 ， 并 为 平台 货车 提供 综合 服务 , 致力 于 做 中 国 
公路 物流 基础 设施 。2017 年 6 月 ， 货 车 帮 获 《金融 时 报 》 和 国际 金融 
公司 联合 发 布 的 “变革 基础 设施 成 就 奖 ” 和 综合 奖 一 一 “颠覆 性 技术 卓 
越 奖 ”。 货 车 帮 通 过 货运 大 数据 对 市 场 需求 做 精准 把 握 ， 运 用 数学 模型 
实现 最 优 资源 配置 和 供需 平衡 功能 ， 逐 步 实现 智能 货车 匹配 、 智 能 实时 调 
度 、 智 能 标准 报价 ， 以 及 对 物流 信息 全 程 追踪 和 可 视 化 ， 显 著 提 升 公路 干 
线 物流 货源 、 车 辆 、 路 线 、 价 格 的 匹配 速度 、 精 准 度 和 运输 组 织 效 能 。 

3. 金融 行业 数据 挖掘 应 用 场景 

行为 信用 评分 : 与 初始 信用 评分 一 样 的 目的 , 行为 信用 分 析 的 变量 
加 入 了 客户 产品 消费 行为 的 信息 , 使 客户 信用 的 评估 变 得 更 准确 。 例 如 ， 
美国 AT&T 电信 公司 ， 通 过 掌握 了 客户 更 多 的 通话 、 差 旅 等 行为 信息 ， 
使 得 该 公司 对 客户 信用 风险 评级 精确 度 明 显 高 于 一 般 的 信用 卡 公 司 。 

利用 银行 卡 刷卡 记录 , 定位 财富 人 和 群 。 目 前 国内 约 有 120 万 人 属于 
高 端 财富 人 群 ， 其 平均 可 支配 的 金融 资产 在 1000 万 元 以 上 ， 是 银行 财 
富 管理 的 重点 开发 市 场 。 他 们 具有 典型 高 端 消费 习惯 ， 银行 通过 对 POS 
机 消费 记录 等 多 维度 的 数据 挖掘 后 , 来 定位 高 端 财富 人 群 , 为 其 定制 财 
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富 管理 方案 等 金融 服务 品种 。 

阿里 云 , 阿里 巴巴 集团 旗下 的 云 计算 品牌 , 全球 卓 越 的 云 计算 技术 
和 服务 提供 商 ,， 是 全 球 领 先 的 云 计算 及 人 工 智能 科技 公司 ,致力 于 以 在 
线 公共 服务 的 方式 ， 提 供 安全 、 可 靠 的 计算 和 数据 处 理 能 力 ， 让 计算 和 
人 工 智 能 成 为 普 惠 科 技 。 阿 里 云 服 务 着 制造 、 金 融 、 政 务 、 交 通 、 医 疗 、 
电信 、 能 源 等 众多 领域 的 领军 企业 。 其 中 在 金融 方面 的 数据 服务 中 ， 有 
资产 类 数据 、 信 用 类 数据 和 负债 类 数据 等 。 

金融 行业 是 一 个 数据 挖掘 应 用 凸显 经 济 价值 的 领域 , 数据 挖掘 的 应 用 
能 帮助 金融 行业 突破 其 传统 模式 的 次 端 ， 获 得 新 的 市 场 价 值 极 大 的 提升 。 


4. 医疗 行业 数据 挖掘 应 用 场景 


(1) 预测 建 模 。 新 药物 研发 阶段 的 医药 公司 ， 通 过 数据 建 模 、 分 
析 ， 找 到 最 有 效 的 投入 产 出 比例 ， 使 资源 获得 最 佳 组 合 。 建 立 模型 的 数 
据 由 药物 临床 试验 阶段 之 前 的 数据 集 、 早 期 临床 阶段 的 数据 集 构成 。 预 
测 建 模 能 降低 医药 产品 公司 研发 成 本 , 在 通过 数据 建 模 和 分 析 预 测 药物 
临床 结果 后 ,可 以 暂缓 研究 次 优 的 药物 , 或 者 停止 在 次 优 药物 上 的 昂贵 
的 临床 试验 。 通 过 数据 建 模 、 分 析 ， 不 仅 可 以 生产 更 有 针对 性 的 药物 ， 
还 能 更 快 地 将 药物 推 向 市 场 。 传 统 新 药 从 研发 到 市 场 的 周期 大 约 为 13 
年 ， 使 用 数据 预测 模型 能 大 大 缩短 新 药 推 向 市 场 的 时 间 周 期 ， 大 约 为 
3~5 年 就 可 以 完成 。 

大 健康 的 理念 在 数据 挖掘 技术 的 基础 上 得 以 实现 , 可 以 预测 患 病 风 
险 ， 提 出 指导 性 个 性 化 方案 。 通 过 大 数据 深度 挖掘 和 应 用 ， 开 展 影像 检 
测 、 基 因 检 测 、 病 理 诊 断 等 关联 性 研究 ， 从 预防 、 诊 断 、 治 疗 等 各 个 环 
节 提 高 精准 度 ， 实 现 精 准 诊疗 。 贵 阳 朗 玛 信息 技术 股份 有 限 公 司 〈 简 称 
朗 玛 信息 ) 在 深交 所 创业 板 上 市 。 它 是 一 家 互联 网 服务 公司 ， 致 力 于 利 
用 互联 网 、 大 数据 及 云 计算 技术 、 有 机 结合 医疗 及 智能 穿戴 技术 ， 为 健 
康 领域 服务 。 围 绕 “ 用 户 入 口 、 大 数据 分 析 、 医 疗 资源 ”的 3 要 素 ， 开 
展 以 互联 网 医院 为 核心 载体 的 互联 网 医疗 业务 。 在 互联 网 医院 的 支撑 
下 ， 以 互联 网 、 大 数据 、 云 计算 等 先进 技术 为 纽带 ， 建设 包括 实体 医院 、 
体检 机 构 、 社 区 卫生 中 心 、 药 店 、 医 生 、 康 复 中 心 、 养 老 机 构 、 保 险 机 
构 、 学 术 研 究 、 政 府 监管 等 在 内 的 共 赢 生态 圈 。 互 联网 医院 将 帮助 用 户 
更 便利 地 得 到 适当 的 医疗 与 健康 管理 服务 , 改善 并 提升 用 户 在 医院 的 就 
医 体 验 , 就 医 后 也 能 得 到 更 好 的 康复 。 互 联网 医院 也 将 从 看 病 诊 疗 的 场 
所 延伸 至 基于 大 数据 的 健康 管理 ， 真 正 实现 “上 医治 未 病 ”。 

(2) 网 络 平台 和 社区 。 网 络 平台 和 社区 的 大 数据 是 一 个 潜在 的 大 
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数据 启动 的 商业 模型 ， 平 台 已 经 产生 了 大 量 有 价值 的 数据 。 例 如 ， 
PatientsLikeMe 网 站 ， 病 人 在 网 站 上 分 享 治疗 经 验 ; SERMO 网 站 ， 医 
生 在 网 站 上 分 享 医 疗 见 解 ， ParticipatoryMedicine 网 站 ， 是 一 家 非 营 利 
性 组 织 运 营 的 网 站 , 积极 鼓励 病人 进行 治疗 。 以 上 这 些 各 类 平台 都 是 宝 
贵 的 数据 来 源 。 而 其 中 SERMO 面向 医药 公司 收取 费用 ,医药 公司 就 可 
以 访问 会 员 信 息 及 网 上 互动 信息 等 数据 。 


5. 农业 数据 挖掘 应 用 场景 


在 美国 ， 农 业 数 据 挖 掘 应 用 场景 注重 大 数据 的 精准 化 和 智能 化 。 

一 些 种 业 巨 头 公 司 在 面 对 大 数据 时 代 的 来 临 已 主动 在 应 用 数据 挖 
掘 。 其 中 备 山 都 共计 收购 、 并 购 了 Precision Planting 公司 和 Climate 
Corporation 公司 ,成 为 世界 种 子供 应 商 中 的 翘楚 , 拥有 该 行业 全 球 最 大 
的 资源 和 海量 产量 数据 ， 这 些 数据 与 Climate 公司 的 气象 数据 相 结合 ， 
可 以 得 到 种 植 环境 区 划 和 精细 划分 的 品种 数据 , 农民 可 以 得 到 自己 农场 
属于 哪个 种 植 区 ， 什 么 样 的 种 子 、 在 什么 条 件 下 长 势 最 好 ， 以 及 更 多 实 
用 的 信息 。 

杜邦 先锋 公司 是 种 业 领 域 的 巨头 之 一 , 其 依托 优质 种 质 资源 与 研发 
技术 , 率先 结合 农业 大 数据 推进 精准 农业 技术 。 其 种 子 部 门 与 农场 机 械 
制造 商 约 翰 迪 尔 联手 ， 给 农民 提供 种 子 和 化 肥 方 面 的 指导 。 

数据 挖掘 时 代 , 农民 也 在 使 用 移动 设备 管理 农场 ， 以 方便 掌握 实时 
的 土壤 、 温 度 、 作 物 状况 等 信息 ， 提 高 了 农场 管理 的 精确 性 。 美 国 天 宝 
(CTrimble) 公司 提供 了 整套 农机 作业 综合 解决 方案 一 一 “网 络 农场 系 
统 ”， 它 能 够 通过 无 线 模块 发 射 无 线 网 络 通信 连接 整个 农场 的 软件 和 硬 
件 设备 ， 这 套 管理 系统 基于 地 理 信息 系统 (GIS) 开 发， 提供 对 农场 地 
图 的 浏览 与 编辑 、 农 业 产 业 的 收益 计算 与 管理 、 精 准 农业 数据 的 处 理 与 
分 析 等 全 面 的 农业 解决 方案 。 


6. 气象 数据 挖掘 应 用 场景 


不 仅 农业 、 林 业 、 水 运 等 传统 行业 依赖 气象 ， 如 今 气象 对 人 类 社会 
的 影响 已 涉及 方方面面 ， 包 括 能 支持 定制 化 服务 以 满足 各 行 各 业 的 需 
求 。 通 过 对 气象 数据 的 挖掘 ， 天 气 预 报 的 准确 性 、 时 效 性 都 有 了 极 大 的 
提高 , 包括 对 重大 自然 灾害 的 预警 及 精确 掌握 危害 等 级 等 ， 这 些 都 能 
助人 们 最 大 限度 地 减少 自然 灾害 带 来 的 危害 。 

国外 的 气象 大 数据 应 用 已 经 比较 成 熟 。 默 克 公 司 提前 半年 多 掌握 了 
美国 地 区 3 月 份 的 气象 信息 ， 并 预测 温暖 的 空气 将 带 来 花粉 过 敏 等 因 
素 , 默 克 公 司 加 大 了 过 敏 药 的 宣传 和 供应 由 此 带 来 数 百 万 美元 的 额外 
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销售 额 ; 路 边 的 连锁 便利 店 会 根据 天 气 变化 改变 橱窗 货物 的 摆 放 ， 如 在 
快 下 雨 前 将 雨伞 摆 放 在 醒目 的 位 置 ; 销售 西装 、 凉 圣 、 饮 料 、 甜 甜 圈 和 
汽车 零 部 件 的 公司 ， 也 可 以 从 气象 大 数据 中 罕见 市 场 机 会 。 

例如 ， 备 山 都 〈Monsanto) 公司 的 ClimatePro 或 Field Scripts、 先 
锋 (Pioneer) 公司 的 Field360 都 与 气候 云 (Climate Cloud) 相 结合 ， 
合 农 民 机 械 化 农场 设备 的 种 植 和 产量 数据 ， 以 及 气象 、 种 植 区 划 等 多 样 
数据 ， 可 以 得 到 较为 详尽 的 种 植 决 策 ， 精 准 化 农事 生产 ， 帮 助 农民 提高 
产量 和 利润 。 

英国 的 气象 服务 已 经 全 部 商业 化 ， 年 产值 达到 2600 亿美 元 ， 美 国 
1600 亿美 元 ， 日 本 100 亿美 元 ， 而 中 国 只 有 6 亿美 元 ， 专 业 的 气象 数 
据 服务 在 中 国 市 场 前 景 巨 大 。 


1.4 ”作业 与 练习 


下 例 每 项 活动 是 否 是 数据 挖掘 任务 ? 

根据 性 别 划分 公司 的 顾客 。 

根据 可 营利 性 划分 公司 的 顾客 。 
计算 公司 的 总 销售 额 。 

按 学 生 的 标识 号 对 学 生 数 据 库 进 行 排序 。 
预测 掷 一 对 人 般 子 的 结果 。 

使 用 历史 记录 预测 某 公 司 未 来 的 股价 价格 。 


参考 文献 
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Date Mining[M]. 范 明 ， 范 宏 建 ， 译 . 北京 : 人 民 邮 电 出 版 社 ，2011. 
[2] 刘 鹏 . 大 数据 [M]. 北京 电子 工业 出 版 社 ，2017. 
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分 类 


本 章 介 绍 了 分 类 的 基本 内 容 、 决 策 树 及 其 工作 原理 、 决 策 树 归纳 法 
和 拟 合 模型 、 贝 叶 斯 决策 及 朴素 贝 叶 斯 分 类 器 ， 同 时 讲解 了 支持 向 量 机 
中 的 最 大 边缘 超 平面 、 线 性 SVM、 非 SVM、 核 函数 的 基本 内 容 ， 并 描 
述 了 分 类 在 实际 场景 中 的 应 用 。 

分 类 问题 是 一 个 普遍 存在 的 问题 ， 其 应 用 具有 普遍 性 。 分 类 反映 同 
类 事物 共同 性 质 的 特征 型 和 不 同事 物 之 间 的 差异 型 特征 。 如 医学 中 根据 
核磁 共振 扫描 的 结果 区 分 肿瘤 是 恶性 的 还 是 良性 等 。 本章 将 对 分 类 的 相 
关 知 识 ， 如 决策 树 、 分 类 器 、 贝 叶 斯 分 类 器 、 支 持 向 量 机 等 内 容 进 行 讲 
解 和 研究 。 


2.1 分 类 概述 
2.1.1 分 类 的 基本 概念 


分 类 ,是 一 种 重要 的 数据 分 析 形 式 。 根 据 重要 数据 类 的 特征 向 量 值 
及 其 他 约束 条 件 ， 建 立 分 类 函数 或 分 类 模型 。 

分 类 任务 就 是 通过 学 习 得 到 一 个 目标 函数 〈 分 类 模型 ) 大 ， 把 每 个 
属性 集 x 映射 到 一 个 预先 定义 的 类 标号 7。 分 类 模型 可 以 用 于 描述 性 建 
模 和 预测 性 建 模 。 描 述 性 建 模 可 以 作为 解释 性 工具 , 用 于 区 分 不 同类 中 
的 对 象 ;， 预测 性 建 模 可 以 用 于 预测 未 知 记录 的 类 别 。 
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2.1.2 ”解决 分 类 问题 的 一 般 方法 


分 类 法 是 一 种 根据 输入 数据 集 建立 分 类 模型 的 系统 方法 , 包括 决策 
树 分 类 法 、 基 于 规则 的 分 类 法 、 支 持 向 量 机 分 类 法 、 朴 素 贝 叶 斯 分 类 法 、 
神经 网 络 等 分 类 法 。 这 些 分 类 法 使 用 分 类 算法 确定 分 类 模型 ， 此 模型 能 
很 好 地 拟 合 输入 数据 中 类 标号 和 属性 集 之 间 的 联系 。 分 类 算法 得 到 的 模 
型 不 仅 要 能 拟 合 输入 数据 ， 同 时 能 正确 预测 未 知 样 本 的 类 标号 。 

解决 分 类 问题 的 一 般 方法 如 下 : 

第 一 步 , 建立 一 个 模型 。 这 需要 有 一 个 训练 样本 数据 集 作为 预先 的 
数据 集 或 概念 集 ， 通 过 分 析 属 性 /特征 描述 等 构成 的 样本 (也 可 以 是 实 
体 等 ) 建立 模型 ， 如 图 2-1 所 示 。 


| wa | c= .| | 
[ | 


姓名 “| 年 龄 ”| 收入 | 信用 评估 一 一 
[< | 帮 名 em 


| 陈 湛 明 | <30 | 低 | 良好 nn 
| 何 清 | 31~40 | 高 | 良好 


| 肖 本 [> | 中 等 | 一 般 If 年 龄 =“31~40”and 收入 -高 then 信用 
| 李 斑 |>s0 | 中 等 | 一 般 评估 = 良好 

| 李 B 清 | 31~40 | 高 | 良好 

lye ele es 


2-1 建立 一 个 模型 


用 于 建立 模型 被 分 析 的 数据 元 组 构成 训练 数据 集 , 由 一 组 数据 库 记 
录 或 元 组 构成 ， 而 每 个 元 组 是 一 个 由 关 字 段 值 (属性 或 特征 ) 组 成 的 特 
征 向 量 。 

每 个 训练 样本 都 有 一 个 预先 定义 的 类 别 标记 ， 它 由 一 个 被 称 为 类 
标签 的 属性 确定 。 可 表示 为 : {…, 马 .C}; 其 中 总 表示 字段 值 ，C 表 
示 类 别 。 因 样本 数据 的 类 别 标记 是 已 知 ， 从 训练 样本 集中 提取 出 分 类 规 
则 ,用 于 对 其 他 标号 未 知 对 象 进行 类 标识 。 因此 ,分 类 又 被 称 为 有 监督 
的 学 习 。 

第 二 步 ， 应 用 所 建立 的 模型 对 测试 数据 分 类 进行 检测 ， 如 图 2-2 所 示 。 

分 类 模型 的 性 能 根据 模型 正确 和 错误 预测 的 检验 记录 计数 进行 评 
估 。 分 类 模型 的 性 能 可 以 用 准确 率 和 错误 率 来 表示 。 例 如 : 
正确 预测 数 
预测 总 数 
错误 率 -错误 预测 数 

预测 总 数 



































准确 率 = 














王 晓 娅 | >40 
左 雅 红 | <30 




















图 2-2 ”应 用 模型 分 类 
2.1.3 ”决策 树 


1. 决策 树 工作 原理 


决策 树 分 类 法 是 一 种 简单 而 广泛 使 用 的 分 类 技术 。 基 于 决策 树 的 分 
类 方法 也 是 最 为 典型 的 分 类 方法 ， 是 从 实例 集中 构造 决策 树 ， 先 根据 训 
练 子 集 形成 决策 树 。 

决策 树 工作 原理 : 通过 提出 一 系列 精心 构思 的 关于 检验 记录 属性 的 
问题 , 解决 分 类 问题 。 当 一 个 问题 得 到 答案 , 接着 后 续 问题 就 随 之 而 来 ， 
直到 得 到 记录 的 类 标号 。 这 一 系列 的 问题 及 可 能 的 答案 就 构成 决策 树 的 
形式 决策 树 是 一 种 由 节点 和 有 向 边 构成 层次 结构 。 分 类 问题 的 决策 树 ， 
树 中 包含 以 下 3 种 节点 。 
口 根 节点 : 没有 进 边 ， 有 0 条 或 更 多 条 出 边 。 
口 内 部 节点 : 有 一 条 进 边 ， 有 两 条 或 更 多 条 出 边 。 

口 叶 节 点 : 有 一 条 进 边 ， 没 有 出 边 。 

例如 ,对 疹 椎 动物 的 分 类 只 考虑 两 个 类 别 : 哺乳 类 和 非 哺乳 类 动物 。 
如 图 2-3 所 示 ， 假 设 发 现 一 个 新 物种 ， 怎 么 判断 是 哺乳 类 还 是 非 哺乳 类 
动物 呢 ? 此 时 ， 提 出 一 系列 有 关 物 种 特征 的 问题 : 新 物种 是 冷血 动物 还 
是 恒温 动物 ? 若是 冷血 ， 则 它 不 是 哺乳 动物 ， 反 之 可 能 是 某 种 鸟 或 是 某 
种 哺乳 动物 ; 若是 恒温 的 ， 新 物种 是 由 雌性 胎生 繁殖 吗 ? 答案 若是 ， 可 
以 肯定 是 哺乳 动物 。 

决策 树 形成 后 , 对 检验 记录 进行 分 类 就 容易 了 。 从 树 的 根 节点 开始 ， 
将 测试 条 件 用 于 检验 记录 , 根据 测试 结果 选择 适当 的 分 支 。 沿 着 该 分 支 
或 者 到 达 另 一 个 内 部 节点 ， 使 用 新 的 测试 条 件 ， 或 者 到 达 一 个 叶 节 点 。 
到 达 叶 节点 之 后 ， 叶 节点 的 类 称号 就 被 赋值 给 该 检验 记录 。 
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图 2-3 分 类 问题 决策 


2. 如 何 建 立 决策 树 


理论 上 在 给 定 的 属性 集中 , 构造 决策 树 的 数目 有 指数 级 ， 尽 管 会 比 
其 他 决策 树 更 准确 ， 因 搜索 空间 是 指数 规模 的 , 找 出 最 佳 决策 树 在 计算 
上 基本 很 难 完成 。 因 此 需要 开发 一 些 有 效 的 算法 , 在 合理 的 时 间 内 建立 
具有 一 定 准确 率 的 次 最 优 决策 树 。 这 些 算法 通常 都 采用 贪心 策略 ， 在 选 
择 划分 数据 的 属性 时 ， 采 取 一 系列 局 部 最 优 决 策 建立 决策 树 ，Hunt 就 
是 一 种 这 样 的 算法 。Hunt 算法 是 许多 决策 树 算 法 的 基础 ， 包 括 ID3、 
C4.5 和 CART。 它 们 将 分 类 领域 从 类 别 属性 扩展 到 数值 型 属性 。 


3. 决策 树 归 纳 算法 


算法 2.1 给 出 了 称 作 TreeGrowth 的 决策 树 归 纳 算法 的 框架 。 该 算法 
的 输入 是 训练 记录 集 E 和 属性 集 F。 算法 递归 地 选择 最 优 的 属性 来 划分 
数据 (步骤 7)， 并 扩展 树 的 叶 节 点 (步骤 11 和 步骤 12)， 直 到 满足 结 
束 条 件 〈 步 又 1)。 

(1) 函数 〈createdNode) 为 决策 树 建立 新 节点 。 决 策 树 的 节点 或 
者 是 一 个 测试 条 件 ， 记 作 node.test cond， 或 者 是 一 个 类 标号 ， 记 作 
node.label。 

(2) 函数 find_best_split 确定 应 当选 择 哪个 属性 作为 划分 训练 记录 
的 测试 条 件 。 

(3) 函数 Classify 为 叶 节点 确定 类 标号 。 

(4) 函数 stopping_cond 通过 检查 是 否 所 有 的 记录 都 属于 同一 个 
类 ,或 者 都 具有 相同 的 属性 值 ， 决 定 是 否 终止 决策 树 的 增长 。 终 止 递归 
函数 的 另 一 种 方法 是 ， 检 测 记录 是 否 小 于 某 个 最 小 阔 值 。 


算法 2.1 决策 树 归 纳 算法 的 框架 


TreeGrowth(E,F) 
1: ifstopping_cond(E,F)=true then 


leaf=createNode() 

leaf.label=Classify(E) 

return leaf 

: else 

root=createNode() 
root.test_cond=find_best_split(E,F) 

令 V={v|v 是 root.test_cond 的 一 个 可 能 的 输出 } 
9: for 每 个 veV do 

10: Ev={elroot.test_cond(e)=v 并 且 ee E} 

11: child=TreeGrowth(Ev,F) 

12: ”将 child 作为 root 的 派生 节点 添加 到 树 中 ， 并 将 边 〈root- child) 标 
记 为 v 

13: end for 

14: end if 

15: return root 


在 建立 决策 树 的 过 程 中 ， 容 易 出 现 决 策 树 太 大 ， 即 过 分 拟 合 现象 ， 
这 就 需要 对 决策 树 剪 枝 ， 以 减 小 决策 树 的 规模 。 通 过 修剪 初始 决策 树 的 
分 支 ， 有 助 于 提高 决策 树 的 泛 化 能 力 。 

4. 决策 树 归纳 的 学 习 算 法 必须 解决 下 面 两 个 问题 

(1) 训练 记录 的 分 裂 。 决 策 树 增长 中 每 步 都 要 选择 一 个 属性 测试 
条 件 , 将 记录 划分 成 较 小 的 子 集 。 算 法 则 是 为 不 同类 型 的 属性 指定 测试 
条 件 提供 方法 ， 并 且 提 供 评 估 每 种 测试 条 件 的 客观 度量 。 

(2) 停止 分 裂 过 程 。 任 何 决策 树 都 要 有 结束 条 件 ， 以 终止 决策 树 
的 无 限 生 长 过 程 。 一 个 可 能 的 策略 是 分 裂 节点 ， 直 到 所 有 的 记录 都 属于 
同一 个 类 , 或 者 所 有 的 记录 都 具有 相同 的 属性 值 。 尽管 两 个 结束 条 件 对 
于 结束 决策 树 归纳 算法 都 是 充分 的 , 也 可 以 使 用 其 他 的 算法 合理 终止 决 
策 树 的 生长 过 程 。 


wm OA 


案例 : Web 机 器 人 检测 


Web 使 用 挖 据 就 是 利用 数据 挖 气 的 技术 ， 从 Web 访问 日 志 中 提取 
有 用 的 模式 ， 这 些 模 式 能 够 揭示 站 点 访问 者 的 一 些 有 趣 特 性 ， 例 如 ， 一 
个 人 频繁 地 访问 某 个 Web 站 点 ， 并 打开 介绍 同一 产品 的 网 页 ， 如 果 商 
家 提供 一 些 打折 或 免费 运输 的 优惠 ， 这 个 人 很 可 能 会 购买 这 种 商品 。 

在 Web 使 用 挖 气 中 , 重要 的 是 要 区 分 用 户 访问 和 Web 机 器 人 ( Web 
Robot ) 访问 。Web 机 器 人 (又 称 Web 爬虫 ) 是 一 个 软件 程序 ， 它 可 以 
自动 跟踪 嵌入 网 页 中 的 超 链 接 ， 定 位 和 获取 互联 网 上 的 信息 。 这 些 程序 
安装 在 搜索 引擎 的 入 口 ， 收 集 索 引 网 页 必需 的 文档 。 在 应 用 Web 挖掘 技 
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术 分 析 人 类 的 浏览 习惯 之 前 ， 必 须 过 滤 掉 Web 机 器 人 的 访问 。 可 以 使 用 
决策 树 分 类 法 来 区 分 正常 的 用 户 访问 和 由 Web 机 器 人 产生 的 访问 。 


5. 决策 树 归纳 的 特点 


(1) 决策 树 归纳 是 不 用 假设 类 和 其 他 属性 服从 某 一 分 布 概率 ， 即 
是 一 种 构建 分 类 模型 的 非 参数 方法 。 

(2) 找到 最 佳 的 决策 树 即 决策 树 获得 的 不 是 全 局 最 优 ， 是 每 个 节 
点 的 局 部 最 优 决 策 。 

(3) 决策 树 建立 后 ， 未 知 样本 分 类 很 快 。 而 已 开发 构建 的 决策 树 
技术 计算 成 本 不 高 ， 即 使 训练 集 很 大 ， 也 能 快速 建立 模型 。 

(4) 决策 树 相 对 其 他 分 类 算法 更 简便 ， 特 别 是 小 型 的 决策 树 的 准 
确 率 较 高 。 

(5) 决策 树 算法 对 于 噪声 干扰 有 较 强 的 抗 干 扰 性 ， 此 算法 在 运用 
时 注意 避免 过 分 拟 合 后 抗 干扰 性 更 强 。 

(6) 元 余 属性 不 会 对 决策 树 的 准确 率 造 成 不 利 的 影响 。 

(7) 决策 树 算法 大 多 数 都 采用 自 项 向 下 的 递归 划分 方法 ， 因 此 沿 
着 决策 树 向 下 ， 记 录 会 越 来 越 少 。 解 决 该 问题 的 一 种 可 行 的 方法 是 ， 当 
样本 数 小 于 某 个 特定 阔 值 时 停止 分 裂 。 


2.1.4 ”模型 的 过 分 拟 合 


1. 模型 过 分 拟 合 的 形成 


分 类 模型 的 误差 可 分 两 类 : 训练 误差 和 泛 化 误差 。 训 练 误差 又 称 再 
代入 误差 ,是 在 训练 数据 集 错误 分 类 样本 比例 ; 泛 化 误差 是 模型 在 未 知 
数据 集 的 期 望 误差 。 所 谓 模 型 过 分 拟 合 是 指 训练 数据 拟 合 度 过 高 的 模 
型 ,其 泛 化 误差 可 能 比 具 有 较 高 训练 误差 的 模型 高 。 具 备 训练 数据 很 好 
拟 合 的 同时 ， 能 对 未 知 样本 数据 准确 分 类 的 分 类 模型 就 是 一 个 好 模型 。 

模型 过 分 拟 合 通常 会 导致 两 种 情况 : 噪声 导致 的 过 分 拟 合 、 缺乏 代 
表 性 样本 导致 的 过 分 拟 合 。 


2. 处 理 决 策 树 归纳 中 的 过 分 拟 合 


下 面 介 绍 两 种 决策 树 归 纳 上 避免 过 分 拟 合 的 策略 。 

(1) 先 剪 枝 (提前 终止 ): 决策 树 增长 算法 在 产生 完全 拟 合 整个 训 
练 数据 集 的 完全 增长 的 决策 树 之 前 就 停止 决策 树 的 生长 。 这 就 需要 采用 
更 具 限制 性 的 结束 条 件 。 例如， 当 估 计 的 泛 化 误差 的 改进 低 于 某 个 确定 
的 六 值 时 就 停止 扩展 叶 节 点 。 其 优点 在 于 避免 产生 过 分 拟 合 训练 数据 的 


过 于 复杂 的 子 树 , 提前 终止 选取 正确 的 阔 值 难度 很 大 。 闵 值 太 高 将 导致 
拟 合 不 足 的 模型 ， 而 阔 值 太 低 就 不 能 充分 地 解决 过 分 拟 合 的 问题 。 

(2) 后 前 枝 (过 程 修剪 ): 初始 决策 树 按照 最 大 规模 生长 ， 再 剪 枝 。 
按照 由 下 向 上 的 方式 修剪 完全 增长 的 决策 树 。 修 剪 有 两 种 做 法 : 第 一 种 ， 
用 新 的 叶 节 点 替换 子 树 , 该 叶 节 点 的 类 标号 由 子 树 下 记录 中 的 多 数 类 确 
定 ; 第 二 种 ,用 子 树 中 最 常 使 用 的 分 支 代 蔡 子 树 。 当 模型 不 能 再 改进 时 
终止 剪 枝 步骤 。 

与 先 剪 枝 相 比 ， 后 剪 枝 能 获得 更 好 的 结果 ， 后 剪 枝 是 根据 完全 增长 
的 决策 树 做 出 的 剪 枝 决策 , 先 剪 枝 则 可 能 过 早 终 止 决策 树 的 生长 。 当 然 ， 
运用 后 前 枝 时 会 浪费 之 前 完全 增长 决策 树 的 部 分 计算 。 


2.2 贝 叶 斯 决策 与 分 类 器 


上 节 介 绍 了 决策 树 归纳 这 种 简单 有 效 的 分 类 技术 , 本 节 将 讲解 构建 
分 类 模型 的 其 他 技术 一 一 最 简单 的 基于 规则 的 分 类 器 。 


2.2.1 规则 分 类 器 


基于 规则 的 分 类 器 是 使 用 一 组 “if…then… ”规则 来 对 记录 进行 分 

类 的 技术 。 表 2-1 所 示 的 例子 中 给 出 疹 椎 动物 分 类 问题 基于 规则 的 分 类 
器 产生 的 一 个 模型 。 此 模型 的 规则 用 析 取 范式 R= (ri v r2v…vrx) 表示 ， 
其 中 RR 称 作 规则 集 ， 而 ti 是 分 类 规则 或 析 取 项 。 

表 2-1 疹 椎 动物 分 类 问题 的 规则 集 举例 

n: 《胎生 = 否 》 八 飞行 动物 = 是 ) 一 鸟 类 

D: 《胎生 = 否 ) 人 《水 生动 物 = 是 ) 一 鱼 类 

D:〈 胎 生 = 是 ) 人 《体温 = 恒温 ) 一 哺乳 动物 

r4: 《胎生 = 否 》 八 《飞行 动物 = 否 ) 一 扑 行 类 

rs: 水 生动 物 = 半 ) 一 两 栖 类 


每 一 个 分 类 规则 可 以 表示 为 如 下 形式 : 








ri:( 条 件 fe 
规则 左边 称 为 规则 前 件 或 前 提 。 它 是 属性 测试 的 合 取 : 
条 件 二 (Al op v) 人 (Az op Vi) … 人 (Akop ve) 


其 中 (Aj, 由 是 属性 一 值 对 ，op 是 比较 运算 符 仁 . 雹 <.>, 乏 .>}。 每 一 
属性 测试 (Aj,op vj) 称 为 一 个 合 取 项 。 

规则 右边 称 为 规则 后 件 ， 包 含 预测 类 y;。 

如 果 规 则 r 的 前 件 和 记录 x 的 属性 匹配 ， 则 称 r 覆盖 x。 当 r 覆盖 
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给 定 的 记录 时 ， 称 r 被 触发 。 表 2-2 中 的 两 种 消 椎 动物 一 一 鹦鹉 和 棕熊 
的 属性 如 下 。 









表 2-2 ” 鹦 政 与 棕熊 
名 称 | 体 温 | 表皮 覆 族 胎 生 | 飞 行动 物 有 腿 | 冬 了 眠 
鹦 弄 恒温 羽毛 否 是 是 否 


棕熊 


| 恒温 | 软 E | 是 | 下 | 是 | 吓 

nn 覆盖 第 一 种 将 椎 动物 ， 因 为 鹦 现 的 属性 满足 它 的 前 件 。r 覆盖 第 
一 种 将 椎 动物 。n 不 禾 盖 第 二 种 咨 椎 动物 。 因为 棕熊 是 胎生 的 且 不 能 飞 ， 
不 符合 的 前 件 。 

基于 规则 的 分 类 器 产生 的 规则 集 有 以 下 两 个 重要 性 质 。 

(1) 互 斥 规则 。 如 果 规 则 集中 不 存在 两 条 规则 被 同一 条 记录 触发 
的 情况 ， 则 称 规则 集中 的 规则 是 互 斥 的 。 

(2) 穷 举 规则 。 如 果 对 属性 值 的 任 一 组 合 ， 规 则 集中 都 存在 一 条 
规则 加 以 覆盖 ， 则 称 规则 集 具 有 穷 举 履 盖 。 它 确保 每 一 条 记录 都 至 少 被 
规则 集 里 的 一 条 规则 覆盖 。 


2.2.2 分 类 中 贝 叶 斯 定理 的 应 用 


本 节 介绍 一 种 对 属性 集 和 类 变量 的 概率 关系 建 模 的 方法 , 例如 ， 想 
通过 一 个 人 的 饮食 和 锻炼 的 频率 预测 其 是 否 有 患 心脏 病 的 风险 。 

先 介绍 贝 叶 斯 定理 , 它 是 一 种 将 类 的 先 验 知识 和 从 数据 中 收集 的 新 
证 据 相 结合 的 统计 原理 。 


1. 贝 叶 斯 定理 


假设 了 是 一 对 随机 变量 ， 联 合 概率 P(X=x, 天 7) 是 指 蕊 取 值 x 且 
了 取 值 y 的 概率 ， 条 件 概 率 是 指 一 随机 变量 在 另 一 随机 变量 取 值 已 知 的 
情况 下 取 某 一 特定 值 的 概率 。 例 如 ， 条 件 概率 PCG=x| 交 7) 是 指 在 变量 式 
取 值 x 的 情况 下 ， 变 量 了 取 值 y 的 概率 。 


PIC) -= 二 DC (2-1) 
P(X) 


2. 贝 叶 斯 定理 在 分 类 中 的 应 用 
先 从 统计 学 的 角度 对 分 类 问题 加 以 形式 化 。 设 并 表示 属性 集 ， 了 表 
示 类 变量 。 如 果 类 变量 和 属性 之 间 的 关系 不 确定 ， 可 以 将 开 和 了 了 看 作 


随机 变量 , 用 P(Y| 加 以 概率 的 方式 捕捉 二 者 之 间 的 关系 , 这 个 条 件 概 率 
又 称 为 了 的 后 验 概率 ， 对 应 P(Y) 称 为 了 的 先 验 概率 。 


在 训练 阶段 ， 要 根据 从 训练 数据 中 收集 的 信息 ， 对 和 了 的 每 一 
种 组 合 学 习 后 验 概率 P(Y|X)。 知 道 这 些 概 率 后 ， 通 过 找 出 使 后 验 概率 
P(YIX) 最 大 的 类 了 可 以 对 测试 记录 卫 进 行 分 类 。 用 这 种 方法 解决 任务 : 
预测 一 个 贷款 者 是 否 会 拖欠 还 款 。 

表 2-3 中 的 训练 集 有 如 下 属性 。 


表 2-3 训练 集 









序 号 有 房 | 婚姻 状况 | 年 收入 | 拖欠 贷款 
1 是 香 
2 否 否 
3 否 否 
4 是 香 
5 否 是 
6 否 和 
7 是 否 





假设 给 定 一 组 测试 记录 有 如 下 属性 集 : 了 (有 房 = 否 ， 婚 姻 状况 = 
已 婚 ， 年 收入 =$120K)。 要 分 类 该 记录 ， 我 们 需要 利用 训练 数据 中 的 可 
用 信息 计算 后 验 概率 P(Yes|X¥) 和 P(NolXY)。 如 果 P(Yes|X)>P(NolX)， 那 
么 记录 分 类 为 Yes， 反 之 ， 分 类 为 No。 

准确 估计 类 标号 和 属性 值 的 每 一 种 可 能 组 合 的 后 验 概率 非常 困难 , 因 
为 即便 属性 数目 不 是 很 大 ， 仍 然 需要 很 大 的 训练 集 。 此 时 ， 贝 叶 斯 定理 可 
以 用 先 验 概率 P(Y)、 类 条 件 概 率 P(XIY) 和 证 据 P(X) 来 表示 后 验 概率 : 
P(X IYP(Y) 

P(X) 

在 比较 不 同 了 值 的 后 验 概率 时 ， 分 为 P(X ) 总 是 常数 ， 可 以 忽略 。 
先 验 概率 P(Y) 可 以 通过 计算 训练 集中 属于 每 个 类 的 训练 记录 所 占 的 比 
例 很 容易 地 估计 。 对 类 条 件 概率 P(XYIY) 的 估计 ， 可 以 用 朴素 贝 叶 分 类 
器 和 贝 叶 斯 信念 网 络 两 种 贝 叶 斯 分 类 方法 实现 。 


2.2.3 ”分 类 中 朴素 贝 叶 斯 的 应 用 


P(Y |X)= 


1. 条 件 独立 性 


在 研究 朴素 贝 叶 斯 分 类 法 如 何 工作 之 前 ， 先 介绍 条 件 独 立 概念 。 设 
XX、 了 和 Z 表 示 3 个 随机 变量 的 集合 。 给 定 Z、 卫 条 件 独 立 于 Y， 如 果 下 
面 的 条 件 成 立 : 


P(XIY,Z)= P(X|Z) 


例题 : 一 个 人 的 手臂 长 短 与 其 阅读 能 力 之 间 的 关系 。 可 能 发 现 手臂 
较 长 的 人 阅读 能 力 较 强 , 而 这 种 关系 可 能 就 是 年 龄 。 小 孩 的 手臂 比 成 人 
的 手臂 短 ， 同 时 也 不 具备 成 人 的 阅读 能 力 。 若 年 龄 一 定 ， 此 时 手臂 长 度 
与 阅读 能 力 之 间 的 关系 消失 。 从 而 得 出 ， 在 年 龄 一 定时 ， 手 臂 长 度 和 阅 
读 能 力 两 组 条 件 独立 。 

并 和 了 之 间 的 条 件 独立 可 写 为 

P(X,Y| DPE ID x PYID (2-2) 

2. 朴素 贝 叶 斯 分 类 器 如 何 工 作 

后 一 种 方法 更 实用 , 因为 它 不 需要 很 大 的 训练 集 就 能 获得 较 好 的 概 
率 估计 。 

分 类 测试 记录 时 ， 朴 素 贝 叶 斯 分 类 器 对 每 个 类 了 计算 后 验 概率 : 
PIT ”PCx17) 
一 一 < 

朴素 贝 叶 斯 分 类 法 使 用 以 下 两 种 方法 估计 连续 属性 的 类 条 件 概率 。 

(1) 可 以 将 每 一 个 连续 的 属性 离散 化 ， 然 后 用 相应 的 离散 区 间 蔡 
换 连 续 属 性 值 。 

(2) 可 以 假设 连续 变量 服从 某 种 概率 记录 ， 然 后 使 用 训练 数据 估 
计 分 布 的 参数 。 


.朴素 贝 叶 斯 分 类 器 特征 


口 在 面 对 孤 立 的 噪声 点 时 ， 朴 素 贝 叶 斯 分 类 器 性 能 影响 不 大 。 
口 面 对 无 关 属性 时 ， 朴 素 贝 叶 斯 分 类 器 性 能 同样 影响 不 大 。 
口 相关 属性 可 能 降低 朴素 贝 叶 斯 分 类 器 的 性 能 。 


P(Y |X)= (2-3) 


CD 


2.3 ”支持 向 量 机 


支持 向 量 机 (Support Vector Machine，SVM) 于 1995 年 由 Cortes 
和 Vapnik 首先 提出 。SVM 已 是 一 种 倍 受 关注 的 分 类 技术 ， 在 解决 小 样 
本 、 非 线性 、 高 维 模式 识别 中 具备 特有 的 优势 ， 并 能 够 推广 应 用 到 函数 
拟 合 等 其 他 机 器 学 习 问 题 中 。SVM 成 为 最 主要 的 模式 识别 方法 之 一 ， 
它 可 以 在 高 维 空间 构造 良好 的 预测 模型 ， 在 OCR、 语 言 识别 、 图 像 识 
别 等 广泛 地 应 用 。 它 以 扎实 的 统计 学 理论 为 基础 ,并 在 许多 实际 应 用 (如 
手写 数字 的 识别 、 文 本 分 类 等 ) 中 展示 了 大 有 可 为 的 实践 效果 。 此 外 ， 
SVM 可 以 很 好 地 应 用 于 高 维 数据 中 ， 避 免 了 维 灾难 问题 。 这 种 方法 具 
有 一 个 独特 的 特点 ， 它 使 用 训练 实例 的 一 个 子 集 来 表示 决策 边界 ， 该 子 


集 称 作 支持 向 量 (Support Vector )。 

要 了 解 SVM， 首 先 要 了 解 最 大 边缘 超 平面 的 概念 以 及 选择 它 的 基 
本 原理 。 然 后 ， 了 解 在 线性 可 分 的 数据 上 怎样 训练 一 个 线性 的 SVM， 
从 而 明确 地 找到 这 种 最 大 边缘 超 平面 。 最 后 ， 介 绍 如 何 将 SVM 方法 扩 
展 到 非 线 性 可 分 的 数据 上 。 


2.3.1 ”最 大 边缘 超 平面 


一 个 数据 集 包 含 两 个 不 同类 的 样本 , 分 别 用 小 黑 加 号 块 和 小 圆圈 表 
示 。 数 据 集 是 线性 可 分 的 ， 即 能 找到 一 个 超 平面 使 得 所 有 小 黑 方块 位 
于 这 个 超 平面 的 一 侧 ， 所 有 小 圆圈 在 它 的 另 一 侧 。 如 图 2-4 所 示 ， 可 看 
到 这 种 超 平面 可 能 存在 无 穷 多 个 。 通 过 检验 样本 运行 效果 , 分 类 器 要 从 
这 些 超 平 面 中 选 一 个 作为 它 的 决策 边界 。 








2-4 ”一 个 线性 可 分 数据 集 可 能 决策 边界 


支持 向 量 机 方法 是 建立 在 统计 学 习 理 论 的 VC 维 理论 和 结构 风险 
(结构 化 风险 = 经 验 风险 + 置信 风险 ) 最 小 原理 基础 上 的 。 用 有 限 样 本 信 
息 在 模型 的 复杂 性 和 学 习 能 力 〈 无 错误 地 识别 任意 样本 的 能 力 ) 之 间 寻 
求 最 佳 折 中 ， 以 期 获得 最 好 的 推广 能 力 〈 或 称 泛 化 能 力 )。 

VC 维 是 对 函数 类 的 一 种 度量 ， 可 以 理解 为 问题 的 复杂 程度 ，VC 
维 越 高 ， 一 个 问题 就 越 复杂 。 机 器 学 习 本 质 上 就 是 一 种 对 问题 真实 模型 
的 逼近 (选择 一 个 认为 比较 好 的 近似 模型 ， 这 个 近似 模型 就 称 为 一 个 假 
设 )， 由 于 无 法 得 知 选择 的 假设 与 问题 真实 解 之 间 究 竟 有 多 大 差距 ， 这 
个 与 问题 真实 解 之 间 的 误差 ， 就 称 为 风险 。 真 实 误差 无 从 得 知 ， 但 可 以 
用 某 些 可 以 掌握 的 量 来 副 近 它 , 即使 用 分 类 器 在 样本 数据 上 的 分 类 的 结 
果 与 真实 结果 (因为 样本 是 已 经 标注 过 的 数据 ， 是 准确 的 数据 ) 之 间 的 
差 值 来 表示 ， 这 个 差 值 称 为 经 验 风险 Repm(W)。 传 统 的 机 器 学 习 方法 
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都 把 经 验 风险 最 小 化 作为 努力 的 目标 , 但 后 来 发 现 很 多 能 够 在 样本 集 上 
达到 100% 的 正确 率 的 分 类 函数 ， 实 际 分 类 的 效果 不 能 令 人 满意 ， 说 明 
仅仅 满足 经 验 风险 最 小 化 的 分 类 函数 推广 能 力 差 ,， 或 泛 化 能 力 差 , 因为 
相对 于 实际 数据 集 ， 样 本 数 是 微乎其微 的 ,经 验 风险 最 小 化 原则 只 在 占 
很 小 比例 的 样本 上 做 到 没有 误差 , 当然 不 能 保证 在 更 大 比例 的 真实 数据 
集 上 也 没有 误差 。 

统计 学 为 此 引入 泛 化 误差 界 的 概念 ， 是 指 真实 风险 包括 两 部 分 内 
容 : 一 是 经 验 风 险 ， 代 表 分 类 器 在 给 定 样 本 上 的 误差 ， 二 是 置信 风险 ， 
代表 在 多 大 程度 上 可 以 信任 分 类 器 在 未 知 数据 上 分 类 的 结果 。 目前 , 第 
二 部 分 是 无 法 精确 计算 的 ， 只 能 给 出 一 个 估计 的 区 间 。 这 也 使 得 整个 误 
差 只 能 计算 上 界 ， 而 无 法 计算 准确 的 值 ( 所 以 叫 泛 化 误差 界 ， 而 不 叫 泛 
化 误差 )。 

置信 风险 与 两 个 量 有 关 ， 一 是 样本 数量 ， 给 定 的 样本 数量 越 大 ， 学 
习 结 果 越 有 可 能 正确 ， 此 时 置信 风险 越 小 ， 二 是 分 类 函数 的 VC 维 ， 显 
然 VC 维 越 大 ， 推 广 能 力 越 差 ， 置信 风险 会 越 大 。 

泛 化 误差 界 的 公式 为 RW )< Repm(W)+yp(n/1h) ， 式 中 R(W) 是 真实 
风险 ，RepmW ) 是 经 验 风险 ，yp(n/n) 是 置信 风险 。 统计 学 习 的 目标 从 经 
验 风 险 最 小 化 变 为 了 寻求 经 验 风险 与 置信 风险 的 和 最 小 , 即 结构 风险 最 
小 。SVM 恰恰 是 一 种 努力 最 小 化 结构 风险 的 算法 。 下 面 从 最 为 基本 的 
线性 分 类 器 来 具体 介绍 SVM 算法 的 思想 。 

线性 分 类 器 通过 一 个 超 平面 将 数据 分 成 两 个 类 别 , 该 超 平面 上 的 点 
满足 wix+b=0。 线 性 分 类 器 利用 这 种 方式 ,将 分 类 问题 简化 成 确定 wzx+b 
的 符号 ，wzx+b>0 为 一 类 ，wzx+b<0 为 另 一 类 。 线 性 分 类 器 需要 解决 的 
基本 问题 就 是 寻找 这 样 一 个 超 平面 ， 对 于 线性 分 类 而 言 ， 能 够 准确 将 其 
分 开 的 超 平面 不 是 唯一 的 , 如 何 确定 一 个 最 优 的 超 平面 ? 图 2-4 这 个 超 
平面 应 该 是 最 适合 分 开 两 类 数据 的 直线 。“ 最 适合 ”判定 的 标准 是 这 条 
直线 离 直线 两 边 的 数据 的 间隔 最 大 ， 应 寻找 有 着 最 大 间隔 的 超 平面 。 

SVM 最 基本 的 任务 就 是 在 分 开 数 据 的 超 平面 的 两 边 建 有 两 个 互相 
平行 的 超 平面 。 分 隔 超 平面 使 两 个 平行 超 平面 的 距离 最 大 化 , 平行 超 平 
面 间 的 距离 或 差距 越 大 ， 分 类 器 的 总 误差 越 小 。 

分 类 的 过 程 是 一 个 机 器 学 习 的 过 程 。 该 样本 属于 两 个 类 ，, 用 该 样本 
训练 SVM 得 到 最 大 间隔 超 平面 .在 超 平面 上 的 样本 点 也 称 为 支持 向 量 。 


2.3.2 ”线性 支持 向 量 机 SVM 
SVM 算法 是 从 线性 可 分 情况 的 最 优 分 类 超 平面 提出 的 。 最 优 分 类 


面 是 指 要 求 分 类 超 平面 不 但 能 将 两 类 样本 点 无 错误 地 分 开 , 而 且 要 使 两 
类 的 分 类 空隙 最 大 。 
给 定 样本 集 (xiy)，xie Rn，yie {-1,+1}，i=1,2,…,n。 该 线性 判别 函 
数 的 一 般 形式 为 
f(x) = WX t WX +t + WX +h=w x,+Db (2-4) 
特征 向 量 x = (xi .x, 了 ， 权 向 量 w = (w,.….w,)”， 分 类 超 平面 方 
程 w "x+b=0， 通 过 将 判别 函数 进行 归 一 化 ， 使 两 类 所 有 样本 都 满足 
|7(x) 上 1， 离 分 类 超 平面 最 近 的 样本 的 |f(x,)|= 1， 而 要 求 分 类 超 平面 对 


所 有 样本 都 能 正确 分 类 ， 它 要 满足 : 
yw x +b)-l>0, i=1,2,°",n (2-5) 


式 〈2-5) 中 使 等 号 成 立 的 那些 样本 称 为 支持 向 量 。 
在 分 类 超 平面 方程 w "x+b=0 确定 的 情况 下 ,“+1” ww 


样本 (e+l) 到 超 平面 的 偏离 y; 可 以 表示 为 “向 未 。 相 应 的 
“-1” 一 侧 的 某 一 样本 (w,-1) 到 超 平面 的 距离 y; 可 以 表示 为 


-| 二: :向 - 对 于 做 任意 一 个 样本 Gxiy) 到 超 平面 的 距离 是 : 


1 
由 于 支持 向 量 |/(x,|- 1， 两 类 样本 的 分 类 空隙 间隔 的 大 小 则 为 


Margin = (2-6) 


Il 
因此 ， 最 优 分 类 超 平面 问题 可 以 表示 为 在 条 件 (2-5) 约束 下 的 求 
取 mox es 由 于 ma i 站 则 此 时 


最 优 问 题 表示 为 在 条 件 (2-5) 约束 下 ， 求 目标 函数 儿 (w) 的 最 小 值 。 
(2-7) 


目标 函数 是 二 次 的 , 约束 条 件 是 线性 的 , 这 就 成 了 一 个 凸 二 次 规划 
问题 。 此 时 定义 Lagrange 函数 〈 通 过 拉 格 朗 日 函数 将 约束 条 件 融合 到 

目标 函数 中 去 ， 只 用 一 个 函数 表达 式 便 能 清楚 地 表达 出 问题 ): 
Lvsb.0) = (wm) -Tele s+5)-1] (2-8) 














Sw)= Ths = 二 |w -Ww 
2 2 








其 中 ，a=(@1,…,an)”，4qi 宇 0， 计 1,…,n 为 Lagrange 系数 向 量 , 对 w 
和 5b 求 Lagrange 函数 的 最 小 值 。 将 式 (2-8) 分 别 对 w、b、ai 求 偏 微分 
并 令 它 们 等 于 0， 得 
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以 上 3 式 加 上 原 约束 条 件 可 以 将 原 问 题 转化 为 如 下 凸 二 次 规划 的 
对 偶 问 题 : 


「 1 "， 
|max > a,— 2> > i 
i=1 


i=l J=1 
st 0 过 0.1=1 ,nn 
站 
[元 ay,=0 


[a 
这 是 一 个 不 等 式 约束 下 二 次 函数 机 制 问题 ,存在 唯一 最 优 解 。 若 


为 最 优 解 ， 则 
We (2-9) 


a 不 为 零 的 样本 即 为 支持 向 量 , 则 最 优 分 类 面 的 权 系 数 向 量 是 支持 

向 量 的 线性 组 合 。 
5 可 由 约束 条 件 a,[y,(w”x,+5)- 1]= 0 求解 ， 得 到 最 优 分 类 函数 是 
Eb pte | (2-10) 


其 中 ，sgn() 为 符号 函数 。 
当 用 一 个 超 平面 不 能 将 两 类 点 完全 分 开 时 (只 有 少数 点 被 错 分 , 或 
者 存在 噪声 点 且 离 超 平面 很 近 ), 可 以 引入 松弛 变量 s (sz oz= 1 7 )， 
使 超 平面 w x+b=0 满 足 
yi(w x +b)>1-é, i=1,2, ,n (2-11) 
当 o < s, <1 时 ， 样 本 点 x 正确 分 类 ,但 当 s,> 0 时， 样本 点 羡 被 错 
分 。 为 此 ， 引 入 以 下 目标 函数 : 


yw) LW w+ Cy 各 (2-12) 
2 =- 


1 


[ n 1 "7 
|max > i > op, (x x,) 


i=1 j=1 


st Ow Ci=L",n (2-13) 


2.3.3 ” 非 线性 支持 向 量 机 SVM 


本 节 讲 解 了 将 SVM 应 用 到 具有 非 线性 决策 边界 数据 集 上 的 方法 ， 
关键 在 于 将 数据 从 原先 的 坐标 空间 x 变换 到 一 个 新 的 坐标 空间 y(x) 中 ， 


然后 在 新 的 坐标 空间 中 使 用 一 个 线性 的 决策 边界 划分 样本 。 
1. 属性 变换 
通过 分 析 图 2-5 (a) 中 的 二 维 数据 集 ， 包 含 小 黑 方块 (类 标号 y=1) 
和 小 圆圈 (类 标号 ?=-1)。 数 据 集 是 这 样 生 成 的 ， 所 有 的 小 圆圈 都 聚集 
在 图 的 中 心 附近 ,所 有 小 黑 方块 都 分 布 在 离 中 心 较 远 的 区 域 。 用 下 面 的 
公式 对 数据 集 实例 分 类 : 
me | 如 果 (x, -0.5)? + (x, -0.5)2 > 0.2 
a 否则 
所 以 ， 数 据 集 决 策 边界 表示 为 


-0.52 + -0.5)2 = 0.2 


2 2 
-= 


进行 非 线性 变换 y ， 将 数据 从 原先 的 特征 空间 映射 到 一 个 新 的 空 
间 ， 决 策 边界 在 这 个 空间 下 成 为 线性 的 。 例 如 ， 对 于 之 前 给 定 的 数据 ， 
以 -x 和 x 为 坐标 绘图 。 图 2-.5(b) 显示 在 变换 后 的 空间 中 ， 所 
有 小 圆圈 都 位 于 图 左下 方 的 区 域 。 从 而 构建 一 个 线性 的 决策 边界 将 数据 
划分 到 各 自 所 属 类 中 。 
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(a) 原 二 维 空间 中 的 决策 边界 (b) 变换 后 空间 中 的 决策 边界 
图 2-5 ”交换 前 后 空间 中 的 决策 边界 
不 过 , 此 方法 存在 的 一 个 潜在 问题 是 ， 处 理 高 维 数据 时 可 能 产生 高 
维 灾难 。 
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2. 非 线 性 支持 向 量 机 


属性 变换 方法 在 使 用 中 存在 一 些 实际 的 困难 , 如 难以 决定 使 用 什么 
类 型 的 映射 函数 能 确保 在 变换 后 空间 构建 线性 决策 边界 等 问题 。 
假定 存在 一 个 合适 的 函数 4(*) 来 变换 给 定 的 数据 集 。 在 变换 后 的 空 


间 中 ， 线 性 决策 边界 为 


wg(x)+b=0 
非 线 性 SVM 的 任务 可 以 表达 为 以 下 优化 问题 : 
| 
受 限 于 COewg(r)+p)> 1i= 1,.2: NWN。 
通过 下 式 对 检验 实例 Z 进 行 分 类 : 


Re ) 
f(z)= sign(w-¢(z)+5b)= sign| 2 43 Gx) G(z)+ ?| 
\ 


i=l 


min 


3. 核 函数 


若 在 原始 空间 中 的 简单 超 平面 不 能 得 到 满意 的 分 类 效果 , 则 必须 以 
复杂 的 超 曲 面 作为 分 界面 ，SVM 算法 是 如 何 求 得 一 个 复杂 超 曲 面 的 
呢 ? 如 图 2-6 所 示 。 





2-6 超 曲面 


首先 通过 非 线 性 变换 y(x) :x 一 yy 将 输入 空间 变换 到 一 个 高 维 空 
间 , 在 这 个 新 空间 中 求 取 最 优 线 性 分 类 面 , 这 种 非 线 性 变换 是 通过 定义 


适当 的 核 函 《内 积 函 数 ) 实现 的 ， 令 
K(xx))=< G(r) g(x),) > (2-14) 


用 核 函 数 (x,.x,) 代 普 最 优 分 类 平面 中 的 点 积 rzx, ， 就 相当 于 将 原 
特征 空间 变换 到 了 某 一 新 的 特征 空间 ， 此 时 优化 函数 变 为 


ga) «LE Ee (se,) (2-15) 
而 相应 的 判别 函数 式 则 为 


f(x)=sgn((w) G(x)+b )= spn [六 Qi vyK(xx) 1b” | (2-16) 
人 当 


其 中 ，x, 为 支持 向 量 ，x 为 未 知 向 量 ， 式 〈2-16) 就 是 SVM， 在 
分 类 函数 形式 上 类 似 于 一 个 神经 网 络 , 其 输出 是 若干 中 间 层 节点 的 线性 


组 合 , 而 每 一 个 中 间 层 节点 对 应 于 输入 样本 与 一 个 支持 向 量 的 内 积 , 被 
称 为 支持 向 量 网 络 ， 如 图 2-7 所 示 。 


y= sgn Dy CN 天 (Xi x)+ 刘 
La J 





2-7 ”支持 向 量 网 络 预测 未 知 样本 内 部 示意 图 


由 于 最 终 的 判别 函数 中 实际 包含 未 知 向 量 与 支持 向 量 的 内 积 的 线 
性 组 合 ， 因 此 ， 识 别 时 的 计算 复杂 度 取决 于 支持 向 量 的 个 数 。 核 函数 有 
助 于 解决 如 何 实 现 非 线性 SVM 的 一 些 问 题 。 

目前 常用 的 核 函数 形式 主要 有 以 下 3 类 , 它们 都 与 已 有 的 算法 有 对 
应 关系 。 

(1) 多 项 式 形式 的 核 函数 : KGx rz)= (< rr > + < >= I xy 


对 应 SVM 是 一 个 4 阶 多 项 式 分 类 器 。 





人 
(2) 高 斯 核 函 数 ， 即 K(x,.x,)=e。 *”” ， 对 应 SVM 是 一 种 高 斯 分 


类 器 。 
(3) S 形 核 函数 ， 如 K(x.x)= tan& @ yc)， 则 SVM 实现 一 


个 两 层 的 感知 器 神经 网 络 , 只 是 在 这 里 网 络 的 权 值 和 网 络 的 隐 层 节点 数 
目 都 是 由 算法 自动 确定 的 。 
4. 支持 向 量 机 的 一 般 特征 


(1) SVM 学 习 问题 可 表示 为 凸 优化 问题 ， 利 用 已 知 的 有 效 算 法 发 
现 目标 函数 的 全 局 最 小 值 。 





(2) SVM 通过 最 大 化 决策 边界 的 边缘 控制 模型 的 能 力 。 
(3) 通过 对 数据 中 每 个 分 类 属性 值 引 入 一 个 哑 变 量 ，SVM 可 应 用 
于 分 类 数据 。 


2.4 “分 类 在 实际 场景 中 的 应 用 案例 


案例 一 : 如 何 解决 文章 主题 关键 字 与 搜索 引擎 关键 字 带 来 的 检索 
结果 差异 


在 对 学 术 信 息 进行 检索 时 , 发现 常用 的 学 术 搜 索引 擎 在 检索 的 方式 
上 ， 基 本 上 都 是 对 全 文 的 关键 字 进 行 检索 ， 但 是 网 页 中 的 大 部 分 关键 字 
并 不 是 文章 的 主题 关键 字 , 所 以 检索 结果 中 就 会 出 现 很 多 与 检索 关键 字 
相关 度 不 高 的 结果 ， 并 且 在 学 术 搜 索引 擎 中 ， 关 于 学 术 网 站 的 分 类 ， 大 
多 数 都 是 粗略 、 非 专业 的 分 类 ， 并 不 能 给 予 用 户 很 好 的 指导 作用 ， 这 些 
都 会 大 大 地 降低 用 户 的 使 用 体验 。 为 了 解决 上 述 问 题 ， 可 以 设计 一 个 基 
于 中 图 法 分 类 的 学 术 文 献 搜索 引擎 。 在 网 页 学 术 性 判定 方面 , 提出 了 基 
于 贝 叶 斯 算法 的 网 页 学 术 性 判断 算法 ， 通 过 对 网 页 内 容 、 格 式 、 结 构 3 
个 维度 的 分 析 , 完 成 网 页 学 术 性 的 判定 ; 在 分 类 方面 ， 以 中 图 法 的 分 类 
大 纲 作为 分 类 目录 ， 提 出 了 基于 改进 空间 向 量 模型 的 学 术 网 页 分 类 算 
法 , 通过 利用 网 页 主题 关键 字 构 建 网 页 向 量 空间 ,最 后 实现 了 网 页 的 正 
确 分 类 。 通过 两 个 关键 算法 , 在 系统 中 的 网 页 主题 提取 部 分 , 采用 Html 
Parser 技术 与 正则 表达 式 相 结合 的 网 页 主题 提取 算法 ,实现 对 抓 取 的 网 
页 主题 内 容 的 获取 。 分 词 部 分 使 用 的 是 基于 正 向 最 大 匹配 算法 . 最 后 对 
抓 取 的 网 页 链接 建立 有 效 的 索引 ， 使 用 了 开源 的 Lucene 技术 ， 利 用 
Lucene 构建 高 效 的 索引 库 以 满足 用 户 查 询 功 能 。 最 后 结合 以 上 技术 , 实 
现 了 一 个 分 类 学 术 文献 搜索 引擎 。 


案例 二 : 村 别 新 金融 交易 方式 的 欺诈 行为 


在 信息 、 网 络 全 球 化 的 环境 下 , 全球 金 融 行业 正经 历 着 一 场 巨 大 变 
革 。 在 方便 地 享受 网 上 银行 、 手 机 银行 、 微 信 银 行 等 各 类 便捷 的 金融 交 
易 服务 时 ， 其 诈 也 伴随 着 新 漏洞 乘机 而 来 。 如 网 络 钓鱼 、 木 马 病毒 、 电 
话 诈骗 、 伪 造 信 用 卡 等 案件 的 频 发 ， 新 金融 交易 方式 的 安全 备 受 关注 。 
中 国 工商 银行 建立 了 基于 大 数据 技术 金融 交易 反 欺 诈 系 统 , 针对 欺诈 的 
不 同 场 景 ,给 系统 采取 不 同 的 分 析 维 度 ， 在 海量 的 基础 数据 池 中 ,通过 
对 客户 、 产 品 、 商 户 、 渠 道 等 多 维度 ， 提 炼 出 近 1000 个 指标 、3000 多 


个 特征 量 。 让 金融 交易 行为 的 流程 数据 化 ， 构 建 智能 模型 ， 为 精准 打击 
欺诈 交易 黄 定 基础 。 在 对 每 个 客户 历史 交易 的 行为 数据 提炼 3000 多 个 
风险 特征 , 结合 运用 决策 树 、 支 持 向 量 机 、 带 辑 回 归 、 神 经 网 络 等 方法 ， 
构建 出 不 同 的 欺诈 识别 模型 、 识 别 最 新 欺诈 模型 ， 如 图 2-8 所 示 。 

号 正常 交易 


输入 层 输出 层 > 


三 严 


人 于 1 
"ZE 





图 2-8 反 欺 诈 模型 


2013 年 12 月 5 日 ， 某 客户 的 万 事 达 卡 在 短 短 15 分 钟 内 ， 在 美国 
沃尔玛 超市 内 发 生 非 密码 验证 的 POS 刷卡 交易 14 笔 ， 累 计 交 易 金 额 
10250 美元 。 交易 金 额 大 、 交 易 频 繁 等 与 客户 日 常 行为 习惯 不 符 ，14 笔 
交易 被 系统 拦截 ， 后 经 核实 发 现 这 14 笔 交 易 是 嫌疑 人 盗 刷 ， 不 是 客户 
本 人 消费 。 


案例 三 : 在 线 广告 推荐 中 的 分 类 


互联 网 的 出 现 和 普及 给 用 户 带 来 了 大 量 的 信息 , 满足 了 用 户 在 信息 
时 代 对 信息 的 需求 。 但 随 着 网 上 信息 量 的 大 幅 增长 , 使 得 用 户 在 面 对 大 
量 信 息 时 无 法 以 简单 的 方式 获得 对 自己 真正 有 用 的 信息 , 信息 使 用 效率 
反而 降低 了 ， 这 就 是 所 谓 的 信息 超载 。 无 论 是 信息 消费 者 还 是 信息 生产 
者 都 遇 到 了 很 大 的 挑战 : 作为 信息 消费 者 ， 如 何 从 海量 信息 中 找到 对 自 
己 有 价值 的 信息 是 一 件 非常 困难 的 事情 ; 作为 信息 生产 者 ， 如 何 让 自己 
生产 的 信息 脱颖而出 ,受到 有 需求 用 户 的 关注 ， 也 是 一 件 非 常 困难 的 事 
情 . 为 了 解决 信息 过 载 的 问题 ,科学 家 和 工程 师 们 提出 了 各 种 解决 方案 ， 
具有 代表 性 的 解决 方案 是 分 类 目录 和 搜索 引擎 .分 类 目录 将 著名 的 网 站 
分 门 别 类 ， 从 而 方便 用 户 根据 类 别 查 找 网 站 。 但 是 随 着 互联 网 无 框 的 不 
断 扩大 ,分 类 目录 网 站 只 能 覆盖 少量 的 热门 网 站 ,无 法 满足 用 户 的 需求 。 
搜索 引擎 提供 用 户 通过 搜索 关键 词 来 寻找 信息 的 方式 , 若 用 户 无 法 找到 
准确 描述 自己 需求 的 关键 词 时 ,搜索 引擎 也 不 能 解决 用 户 的 需求 。 推荐 
系统 是 解决 这 一 问题 的 重要 工具 。 

推荐 系统 具有 用 户 需 求 驱动 、 主 动 服务 和 信息 个 性 化 程度 高 等 优 





点 ， 可 有 效 解决 信息 过 载 问 题 。 它 研究 并 大 量 借鉴 了 认 知 科学 、 近 似 理 
论 、 信 息 检索 、 预 测 理论 、 管 理科 学 及 市 场 建 模 等 多 个 领域 的 知识 ， 且 
已 经 成 为 数据 挖 据 、 机 器 学 习 和 人 机 接口 领域 的 热门 研究 方向 。 目 前 ， 
已 经 在 电子 商务 、 在 线 学 习 和 数字 图 书馆 等 领域 得 到 了 广泛 应 用 ， 已 成 
为 公认 的 最 有 前 途 的 信息 个 性 化 技术 发 展 方向 。 

推荐 系统 是 一 种 智能 个 性 化 信息 服务 系统 , 可 借助 用 户 建 模 技 术 对 
用 户 的 长 期 信息 需求 进行 描述 , 并 根据 用 户 模 型 通过 一 定 的 智能 推荐 策 
略 实现 有 针对 性 的 个 性 化 信息 定制 , 能够 依据 用 户 的 历史 兴趣 偏好 ， 主 
动 为 用 户 提供 符合 其 需求 和 兴趣 的 信息 资源 。 

推荐 系统 的 工作 原理 与 一 般 信 息 过 滤 系统 比较 类 似 , 是 一 种 特殊 形 
式 的 信息 过 滤 系 统 ， 如 图 2-9 所 示 ， 主 要 由 信息 处 理 部 件 、 推 荐 算法 部 
件 、 用 户 建 模 部 件 、 用 户 模型 、 信 息 对 象 描述 模型 和 信息 资料 库 6 个 主 
要 部 分 构成 。 按 照 工 作 形式 ， 推 荐 系统 可 以 分 为 两 种 : 一 种 是 独立 的 信 
息 服务 系统 ; 另 一 种 是 作为 宿主 信息 服务 系统 的 推荐 子 系统 辅助 信息 、 
服务 系统 。 


信息 源 
< 光 信息 获取 


用 户 模型 
构造 更 新 







用 户 建 模 






2-9 ”推荐 系统 的 工作 原理 


推荐 系统 利用 推荐 算法 将 用 户 和 物品 联系 起 来 , 能 够 在 信息 过 载 的 
环境 中 帮助 用 户 发 现 令 他 们 感 兴趣 的 信息 ,也 能 将 信息 推送 给 对 它们 感 
兴趣 的 用 户 。 

互联 网 公司 公 利 的 主要 模式 是 基于 广告 的 ， 如 果 采 用 随机 投放 方 
式 ， 即 每 次 用 户 来 了 ， 随 机 选择 一 个 广告 投放 给 他 ， 如 化 妆 品 广告 投放 
给 男性 , 这 个 投放 效率 极 低 。 广 告 定 向 投放 则 需要 依赖 用 户 的 行为 数据 ， 
通过 分 析 大 量 已 有 用 户 行为 数据 ， 给 不 同 用 户 提供 不 同 的 广告 页 面 。 

根据 已 有 用 户 注册 信息 和 购买 信息 ,使 用 朴素 贝 叶 斯 分 类 预测 一 个 
新 注册 用 户 购买 计算 机 的 可 能 性 ， 从 而 向 该 用 户 推荐 计算 机 类 广告 。 训 


练 样本 如 表 2-4 表示 。 























表 2-4 训练 样本 

号 | 年 龄 “| 收入 等 级 类 别 : 是否 购买 计算 机 
ID |Age( 岁 ) | Income-level | student | Credit rate | Class:buy computer 
1 | 30 以 下 高 | 否 | 良 | 否 
2 30 以 下 高 否 优 否 
3 31~40 高 否 良 是 
4 40 以 上 中 否 良 是 
5 40 以 上 低 是 良 是 
6 40 以 上 低 是 优 否 
le 31~40 低 是 优 是 
8 30 以 下 中 | 否 | 良 否 
9 30 以 下 低 | 是 | 良 | 是 
10 | 40 以 上 中 | 是 | 良 是 
11 | 30 以 下 中 | 是 | 优 是 
12 | 3L40 中 是 
13 | 31-40 高 | 是 | 良 | 是 
14 | 40 以 上 中 否 


数据 样本 用 属性 “年 龄 ”“ 收 入 等 级 ”“ 是 否 学 生 ”“ 信 用 等 级 ” 描 
述 ， 类 别 属性 “是 否 购买 计算 机 ” 取 值 为 “是 ”“ 否 ”两 种 ， 类 C 对 应 
取 值 为 “是 ”， 类 Cn 对 应 取 值 为 “ 否 ”。 


每 个 类 的 先 验 概率 可 根据 训练 样本 计算 : 


9 5 
P(C,) = 一 =0.643，P(C,) = 一 =0.357 
14 14 


计算 条 件 概 率 : 

P("30 以 下 "/Cy)=2/9=0.222，P("30 以 下 "/C,)=3/5=0.6 
P("31~40"/C,)=4/9=0.444, P("31~40"/C,)=0/5=0 

P("40 以 上 "/Cy)=3/9=0.333，P("40 以 上 "Cn)=2/5=0.4 

P(" 收 入 = 高 "/Cy)=2/9=0.222，P(" 收 入 = 高 "/C;)=2/5=0.4 

P(" 收 入 = 中 "/Cy)=4/9=0.444，P(" 收 入 = 中 "/C;)=2/5=0.4 

P(" 收 入 = 低 "/Cy)=3/9=0.333，P(" 收 入 = 低 "/C,)=1/5=0.2 

P(" 是 否 学 生 = 是 "/C,)=6/9=0.667，P(" 是 否 学 生 = 是 "/C,)=1/5=0.2 
P(" 是 否 学 生 = 否 "/C,y)=3/9=0.333，P(" 是 否 学 生 = 否 "/C,)=4/5=0.8 
P(" 信 用 等 级 = 良 "/C,)=6/9=0.667，P(" 信 用 等 级 = 良 "/C,)=2/5=0.4 
P(" 信 用 等 级 = 优 "/C,)=3/9=0.333，P(" 信 用 等 级 = 优 "/C,)=3/5=0.6 
对 于 新 注册 用 户 XX"30 以 下 "," 收 入 = 中 "," 是 否 学 生 = 是 "," 信 用 等 级 = 


良 ")， 对 该 类 样本 进行 分 类 ， 需 要 计算 P(X/Ci)P(Ci;)，i=y,n 的 最 大 值 。 
利用 以 上 训练 样本 所 得 先 验 概率 和 条 件 概 率 ， 可 以 得 到 
P(XIC)P(C,)=0.222x0.444x0.667x0.667x0.643=0.028 
P(XIC,)P(C,)=0.6x0.4x0.2x0.4x0.357=0.007 
因为 PCVW/Cy)P(Cy)>P(1Cs)P(C,)， 所 以 对 于 样本 XA"30 以 下 "," 收 入 
= 中 "," 是 否 学 生 = 是 "," 信 用 等 级 = 良 ")， 朴 素 贝 叶 斯 分 类 为 C,， 可 以 向 该 
用 户 定向 投放 计算 机 广告 。 


2.5 ”作业 与 练习 


下 例 每 项 活动 是 否 是 数据 挖掘 任务 ? 

假定 你 是 一 个 数据 挖掘 顾问 ， 受 雇 于 一 家 Inter 网 搜索 引擎 公司 。 
举例 说 明 如 何 使 用 诸如 分 类 技术 ， 使 数据 挖掘 为 公司 提供 帮助 。 

图 2-10 给 出 了 表 2-5 中 的 数据 集 对 应 的 贝 叶 斯 信念 网 络 〈 假 设 所 
有 属性 都 是 二 元 的 )。 

(1) 画 出 网 络 中 每 个 节点 对 应 的 概率 表 。 

(2) 使 用 贝 叶 斯 网 络 计 算 P (引擎 = 差 ， 空 调 = 不 可 用 )。 





2-10” 贝 叶 斯 信念 网 络 
表 2-5 习题 2 的 数据 集 
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聚 类 


物 以 类 聚 ， 人 以 群 分 。 人 们 在 了 解 事物 时 ， 常 常 把 事物 归 类 进行 分 
析 ， 以 便 更 好 地 把 握 事物 的 规律 和 特点 。 聚 类 分 析 ， 就 是 采用 类 似 的 思 
想 方 法 。 本 章 讲解 了 聚 类 的 基本 概念 及 常用 算法 ,着重 研究 了 聚合 分 析 
方法 ， 并 介绍 了 聚 类 方法 应 用 场景 和 实现 例子 。 


3.1 聚 类 概述 


大 数据 经 过 采集 、 清 洗 、 集 成 、 转 换 后 ， 成 为 光滑 、 聚 集 、 规 范 的 
大 数据 ， 再 经 过 大 数据 分 析 和 挖掘 ， 就 可 形成 多 种 可 用 的 信息 ， 包 括 报 
表 、 报 警 、 预 测 、 决 策 、 计 划 、 措 施 、 图 例 等 。 而 聚 类 分 析 挖掘 方法 是 
大 数据 分 析 和 挖掘 的 一 种 常用 方法 , 尤其 适合 对 历史 数据 不 具备 先导 经 
验 认识 的 场合 。 


3.1.1 聚 类 的 基本 概念 


聚 类 ， 是 将 数据 集 划分 成 若干 类 ,使 每 一 类 的 数据 有 较 多 的 共同 特 
性 ， 而 且 类 与 类 之 间 有 较 大 的 差异 性 。 

这 里 的 类 ， 也 叫 复 〈Cluster)， 是 相似 数据 的 集合 。 

聚 类 分 析 是 一 种 常用 的 数据 分 析 挖 掘 方法 。 


1. 聚 类 的 过 程 

聚 类 的 过 程 , 就 是 将 相似 数据 归并 到 一 类 的 过 程 ， 形 成 同类 对 象 具 
有 共同 特征 , 不 同类 对 象 之 间 有 显著 区 别 , 直到 所 有 数据 的 归 类 都 完成 。 

这 里 , 对 象 的 共同 特征 构成 特征 性 描述 , 不 同类 对 象 之 间 的 区 别 则 
构成 区 别 性 描述 。 特 征 性 描述 和 区 别 性 描述 构成 对 象 类 的 概念 描述 。 概 
念 描述 就 是 对 某 类 对 象 的 内 涵 进 行 描述 。 

在 聚 类 过 程 中 ， 由 于 事先 并 不 能 确定 所 有 数据 可 以 归并 成 多 少 类 ， 
所 以 聚 类 过 程 是 个 无 监督 的 学 习 过 程 。 这 也 是 聚 类 与 分 类 的 最 大 差别 。 


2. 聚 类 的 目的 


聚 类 的 目的 是 通过 数据 间 的 相似 性 将 数据 归 类 , 并 根据 数据 的 概念 
描述 来 制定 对 应 的 策略 。 例如， 在 电子 商务 领域 ， 电 商 可 以 对 有 相似 浏 
览 行为 的 客户 进行 归 类 ， 从 而 找 出 他 们 的 共同 特征 , 达到 充分 理解 客户 
需求 的 目的 ， 并 提供 相 适 应 的 客户 服务 。 


3. 聚 类 的 技术 


聚 类 技术 主要 包括 传统 的 模式 识别 方法 和 数学 分 类 学 。 传 统 的 模 
式 识 别 方法 如 基于 试探 的 聚 类 搜索 算法 、 系 统 聚 类 法 和 动态 聚 类 法 。 
20 世纪 80 年 代 初 ，Michalski 提出 了 聚 类 技术 概念 ， 其 要 点 是 ， 在 划 
分 对 象 时 不 仅 考虑 对 象 之 间 的 距离 ， 还 要 求 划 分 出 的 类 具有 某 种 内 涵 
描述 。 

4. 聚 类 的 评价 标准 

评价 聚 类 算法 得 出 的 分 类 结果 的 优 劣 需要 借助 一 些 比较 标准 。《An 


Introduction to Information Retrieval 》 Cambridge University Press， 
Cambridge, England 中 讲述 了 几 种 实用 的 评价 方法 ， 例 如 Purity 方法 、 
RI 方 法 、 正 值 方法 以 及 NMI 方法 。 

下 面 主要 介绍 一 下 常用 的 Purity 方法 和 RI 方法 的 要 点 。 

1) Purity 方法 

Purity 方法 反映 具有 特征 性 描述 的 数据 对 象 占 所 有 数据 对 象 的 比 
例 。 它 将 每 一 类 的 具有 特征 性 描述 的 数据 对 象 累加 , 与 所 有 数据 对 象 相 
比 ， 得 出 的 比例 ， 即 来 衡量 该 聚 类 算法 的 效果 。 

Purity 计算 公式 如 下 : 


1 
Purity(2 .C ) = se max 


其 中 : 0 = {foo,….o,} 是 聚 类 (Cluster) 的 集合 ，o, 表示 第 个 
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聚 类 的 集合 ，c - {a.c… .c} 是 数据 对 象 类 型 (Class) 的 集合 ，。 表示 
第 /个 数据 对 象 类 型 集 ，N 表示 数据 对 象 总 数 。 
如 图 3-1 中 数据 对 象 的 聚 类 结果 分 成 3 类 。 


Cluster1 Cluster2 Cluster3 
A) 
SO > 口 
图 3-1 聚 类 例子 
对 象 类 型 (Class) 包括 X、O、D。 
N=17 


Purity=(5+4+3)/N=12/17E0.71 

Purity 是 简单 透明 的 方法 ， 它 的 取 值 在 0~1 之 间 ， 数 值 越 大 ， 表 示 
聚 类 效果 越 好 。 

在 大 量 数 据 经 聚 类 算法 后 ， 如 果 得 到 的 聚 类 〈Cluster) 数 较 少 时 ， 
它 评价 的 准确 性 较 好 ; 但 如 果 得 到 的 聚 类 数 多 到 极端 程度 ， 它 的 准确 性 
反而 较 差 ， 例 如 ， 将 每 个 数据 对 象 都 聚 成 一 类 ， 则 Purity 为 1， 显 然 在 
这 种 场合 是 不 适合 的 。 不 能 单纯 为 了 获得 高 Purity 去 追求 高 聚 类 数 而 牺 
牲 聚 类 的 质量 。 

2) RI (Rand Index) 方法 

RI 方法 以 组 合 原理 来 对 聚 类 进行 评价 ， 通 过 统计 两 两 数据 对 象 之 
间 正 确 的 特征 性 描述 和 正确 的 区 别 性 描述 的 组 合 次 数 占 所 有 组 合 次 数 
的 比例 ， 以 此 来 评价 聚 类 算法 的 效果 。 

a TP +TN 
TP+FP+FN+TN 

其 中 : 

TP 一 一 计算 每 个 聚 类 中 同类 对 象 归 类 到 同一 类 的 组 合 次 数 , 并 累计 
所 有 的 结果 。 

TN 一 一 计算 每 个 不 同类 对 象 归 类 到 不 同类 的 组 合 次 数 ， 并 累计 所 
有 的 结果 。 

FP 一 一 计算 每 个 聚 类 中 不 同类 对 象 归 类 到 同一 类 的 组 合 次 数 , 并 累 
计 所 有 的 结果 。 

FN 一 一 计算 每 个 同类 对 象 归 类 到 不 同类 的 组 合 次 数 ， 并 累计 所 有 


的 结果 。 


Sl 


还 是 以 上 面 的 例子 来 说 明 。 

假设 C(n,m)= 在 m 中 任 选 n 个 的 组 合 数 
Clusterl: TP= C(2,5)=10 

Cluster2: TP= C(2,4)=6 

Cluster3: TP= C(2,3)+ C(2,2)=4 
TP=10+6+4=20 

TP+FP= C(2,6)+ C(2,6)+ C(2,5)=15+15+10=40 
FP= TP+FP-TP =20 

类 似 地 ， 组 合计 算 如 下 。 

X: FN= 5+5+5+2=17 

O: FN=4 

D: FN=3 

FN=17+4+3=24 


TN+FN= C(1,6)xC(1,6)+ C(1,6)xC(1,5)+ C(1,6)xC(1,5)=36+30+30=96 


TN= TN+FN - FN =96-24=72 
从 而 得 到 


RI=(TP+TN)/(TP+FP+FN+TN)=(20+72)/(40+96)=92/136~0.68 


.2 ” 聚 类 算法 


聚 类 分 析 算 法 可 以 分 为 以 下 几 种 。 
口 层次 聚 类 算法 (Hierarchical Methods)。 
划分 聚 类 算法 (Partitioning Methods)。 


口 口 口 口 


1. 层次 聚 类 算法 


基于 密度 的 聚 类 算法 (Density-based Methods)。 
基于 网 格 的 聚 类 算法 〈Grid-based Methods)。 
基于 模型 的 聚 类 算法 (Model-Based Methods ) 。 


对 给 定 的 数据 集 进行 层次 似 的 分 解 ， 直到 某 种 条 件 满足 为 止 。 通 过 
计算 各 个 对 象 的 相似 性 ， 并 将 相似 对 象 合 在 一 起 , 由 同一 的 父 类 代表 它 
们 ， 由 此 构成 一 棵 树 ， 父 类 为 根 节点 ， 其 所 代表 的 对 象 即 构成 树 的 子 


如 图 3-2 所 示 ， 类 (A,B) 为 子 类 A、B 的 父 类 。 
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父 类 (AB) 


图 3-2 父 类 、 子 类 示意 图 
类 似 地 ， 父 类 又 和 剩余 的 其 他 对 象 去 构成 树 ， 形 成 树 的 嵌 套 ， 如 图 3-3 
所 示 。 








父 类 ((A,B),C) 
父 类 (A,B) 
子 类 A B C 


图 3-3 ” 树 的 散 套 示意 图 
当 所 有 的 对 象 都 处 理 完 后 ， 即 构成 一 棵 完整 的 树 ， 如 图 3-4 所 示 。 














根 | (A,B8).C),(DE) 

父 类 (D,E) 

父 类 (AB)'Gl 

多 类 J 

了 类 A B € 


3-4 ”完整 的 树 


从 树 的 构造 顺序 划分 ， 有 自 底 而 上 、 自 项 而 下 两 种 方式 。 前 者 对 应 
的 是 聚合 聚 类 ， 后 者 对 应 的 是 分 裂 聚 类 。 


2. 划分 聚 类 算法 


划分 聚 类 的 方法 如 下 : 先 预 设 划分 的 分 类 数 玉 ， 将 给 定 的 数据 划分 
成 KK 个 非 空 集 合 ， 即 簇 ， 然 后 通过 调整 每 个 数据 在 各 艇 的 分 布 ， 使 得 
每 个 簇 的 相似 度 得 到 进一步 提高 , 而 簇 之 间 的 相 异 度 加 大 。 不断 重复 这 
个 过 程 ， 即 迭代 ， 直 到 每 个 簇 不 再 改变 。 

由 于 K 值 是 预先 赁 经 验 设 定 的 ， 所 以 划分 聚 类 的 效果 是 否 达到 最 


优 与 K 值 设 定 是 否 合理 有 关 。 从 这 个 角度 来 说 ， 划 分 聚 类 属于 硬 聚 类 
方法 。 

代表 算法 : K-means 

K-means 通过 比较 各 数据 点 与 簇 中 心 的 距离 , 来 移动 调整 簇 中 心 和 
数据 点 ， 得 到 满意 的 聚 类 效果 。 

算法 流程 图 : 图 3-5 表述 了 K-means 算法 的 流程 图 。 


Step5: 每 个 数据 
点 都 处 理 完毕 ? 

Step6: 本 次 迭代 
发 生 过 簇 的 调整 ? 


3-5 K-means 算法 流程 图 


该 算法 实现 步骤 如 下 。 

Step1: 初始 划分 出 K 个 徐 ， 可 任 选 KK 个 点 作为 K 个 簇 。 

Step2: 计算 每 个 秘 的 均值 并 作为 该 篮 中 心 点 。 

Step3: 对 于 每 一 个 数据 点 ， 计 算 它 与 每 个 簇 中 心 点 的 距离 ， 比 较 
所 有 距离 得 到 最 小 距离 及 其 对 应 的 徐 ， 该 簇 为 该 点 的 目标 簇 。 

Step4: 如 果 目 标 簇 与 原 簇 不 同 ， 则 调整 该 点 到 目标 徐 ， 否 则 保留 
在 原 艇 。 

Step5: 每 个 数据 点 都 处 理 完毕 后 ， 完 成 本 次 迭代 。 

Step6: 如 果 本 次 迭代 发 生 过 簇 的 调整 ， 则 回 到 Step2， 继 续 这 个 聚 
类 过 程 ， 即 迭代 ， 否 则 转 下 一 步 。 

Step7: 迭代 过 程 结束 ， 得 到 本 算法 聚 类 结果 一 一 所 有 的 K 个 簇 不 
再 有 变动 。 

算法 K-means 适合 于 没有 噪声 或 孤 点 的 数据 集 ， 如 球状 复数 据 集 。 


3. 基于 密度 的 聚 类 算法 
根据 数据 对 象 的 密度 来 划分 簇 , 目标 是 寻找 被 低 密 度 区 域 分 离 的 高 














Step7: 迭代 过 程 结束 
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密度 区 域 。 

代表 算法 DBSCAN (Density-based Spatial Clustering of Applications 
with Noise)， 其 思想 如 下 。 

事先 预 设 基准 半径 Eps、 基 准 密度 MinPts。 

王 邻 域 及 核心 对 象 :一 个 数据 对 象 的 Eps 内 的 区 域 构 成 它 的 EE 邻 域 ; 
如 果 该 E 邻 域内 的 密度 三 基准 密度 MinPts， 则 将 该 数据 对 象 确定 为 核 
心 对 象 。 

直接 密度 可 达 的 点 : 找 出 核心 对 象 的 王 邻 域 内 的 所 有 数据 对 象 , 这 
些 点 称 为 该 核心 对 象 直接 密度 可 达 的 点 。 

密度 可 达 的 点 : 对 于 核心 对 象 p 直接 密度 可 达 的 点 ， 再 找 出 它们 的 
直接 密度 可 达 的 点 ， 依 此 类 推 ， 直 到 能 找到 的 所 有 点 ， 这 些 点 则 构成 核 
心 对 象 p 密度 可 达 的 点 。 

密度 相连 的 点 : 所 有 这 些 密度 可 达 的 点 构成 密度 相连 的 点 。 

算法 的 目标 : 找 出 密度 相连 的 点 的 最 大 集 。 

基于 密度 的 聚 类 算法 的 优点 是 可 以 发 现任 意 形状 的 聚 类 , 包括 带 有 
噪声 点 、 孤 点 的 数据 。 


4. 基于 网 格 的 聚 类 算法 


将 数据 对 象 空间 以 网 格 结构 划分 成 若干 网 格 ， 计 算 网 格 内 的 密度 ， 
再 根据 密度 聚 类 。 


5. 基于 模型 的 聚 类 算法 


为 每 个 数据 簇 假定 一 个 模型 , 并 以 此 判别 每 个 数据 与 该 模型 的 吻合 
度 来 聚 类 。 基 于 模型 的 方法 主要 有 两 类 : 统计 学 方法 和 神经 网 络 方法 。 

统计 学 算法 较为 常用 的 有 EM 和 COBWEB。 

下 面 介 绍 EM (Expectation Maximization ) 算法 思想 。 

目标 : 估计 A、B 两 个 数值 。 

前 提 条 件 : 

(1) 在 开始 状态 下 二 者 都 是 未 知 的 。 

(2) 如 果 知 道 了 A、B 中 的 任何 一 个 的 值 ， 就 可 以 推导 出 另外 一 
个 的 值 。 

方法 : 赋予 A 某 个 初 值 ， 推 导出 B 的 估计 值 ， 以 B 的 估计 值 作为 
它 的 当前 值 ， 推 导出 A 的 估计 值 。 重 复 以 上 过 程 直 到 收敛 为 止 ， 从 而 
得 到 A、B 的 最 佳 估计 值 。 

从 以 上 过 程 可 看 出 EM 是 个 逐步 逼近 的 方法 。 


3.2 ”聚合 分 析 方法 
3:-2-1 人 一 欧 氏 距离 


在 聚 类 分 析 中 ， 需 要 确定 数据 样本 间 的 相似 程度 ， 这 个 相似 度 称 为 
数据 样本 间 的 距离 。 计 算 距 离 的 方法 包括 欧 氏 距离 、 曼 哈 顿 距离 、 闵 可 
夫 斯 基 距 离 和 切 比 雪夫 距离 等 。 

本 章 重点 介绍 常用 的 欧 氏 距离 (Euclidean Distance) 方法 。 

在 一 个 尸 维 空间 中 ， 任 一 点 蕊 表示 为 〈 互 , 和 2,…, Xip)， 它 与 男 一 
点 总 的 欧 氏 距离 4(Xi, 已 ) 可 按 如 下 方法 计算 : 


2| 7 
= 
天 =1 


例如 ， 在 二 维 空间 中 ， 有 点 入 =(6.3)， 丈 =(3,.7)， 则 而 、 克 的 欧 氏 
距离 为 


到 
d (X,Y,)= 2 (Xs -X22) 


= = 
=5 
如 果 将 了 ,、X, 两 点 连 线 看 作 向 量 ， 则 a(x,,x,) 相当 于 向 量 的 模 。 
这 里 暂 不 考虑 向 量 的 方向 。 


3.2.2 ”聚合 过 程 


聚合 分 析 方 法 是 层次 聚 类 的 常用 方法 ， 其 聚合 过 程 是 自 底 而 上 的 过 程 。 
聚合 分 析 过 程 如 下 。 

口 它 将 所 有 数据 样本 分 别 看 作 独 立 的 簇 。 

口 计算 艇 的 相似 度 , 即 簇 之 间 的 距离 。 距 离 最 小 的 即 相 似 度 最 高 。 
口 将 相似 度 最 高 的 簇 合并 成 一 个 徐 ， 再 与 剩余 的 其 他 簇 重 新 聚合 。 
口 ”如 此 重复 迭代 以 上 聚合 过 程 ， 直 到 所 有 数据 样本 合并 为 一 个 艇 。 
聚合 分 析 方法 例子 : 

例如 数据 点 ， 如 图 3-6 所 示 。 

A=(6.3)， 

B=(3.7)， 

C=(12,6) 

第 1 次 计算 相似 度 ， 如 表 3-1 所 示 。 

得 到 A、B 最 相似 。 
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将 A、B 合并 为 一 徐 ， 并 与 剩余 的 C 聚合 。 

合并 簇 的 值 ， 这 里 为 简易 说 明 , 采用 簇 的 质心 的 方法 ， 即 簇 的 均值 
作为 合并 簇 的 值 的 方法 ; 其 他 还 有 最 小 距离 、 最 大 距离 、 平 均 距 离 方 法 ， 
如 图 3-7 所 示 。 



































图 3-6 ”数据 点 
表 3-1 第 1 次 计算 相似 度 





3-7 ” 簇 的 均值 距离 


A、B 簇 的 质心 ( 见 表 3-2): 
(A+B)/2=(4.5,5) 


表 3-2 A、B 簇 的 质心 


A 6 3 
B 3 7 
AB 4.5 5 


第 2 次 计算 相似 度 ， 如 表 3-3 所 示 。 
表 3-3 第 2 次 计算 相似 度 








A,B C 
AB 0.00 7.57 
C 0.00 


得 到 (A,B),C 最 相似 。 
将 (A,B),C 合并 为 一 簇 。 
((A,B),C) 簇 的 质心 ( 见 表 3-4): 
((A,B)+C)/2=(8.25,5.5) 
表 3-4 ”((A,B),C) 徐 的 质心 


AB 5 
C 6 
AB)C 55 


第 3 次 计算 相似 度 ， 如 表 3-5 所 示 。 
表 3-5 ”((A,B),C) 欧 氏 距 离 


(A,B),C 
A,B),C 0.00 


所 有 的 数据 点 都 合并 完 。 聚 合 过 程 完成 。 
3.2.3” 聚 类 树 





将 前 面 每 一 步 的 计算 结果 以 树 状 图 的 形式 展现 出 来 就 是 层次 聚 类 
树 。 最 底层 是 原始 数据 点 。 依 照 数据 点 间 的 相似 度 组 合 为 聚 类 树 的 第 二 
层 。 依 此 类 推 ， 生 成 完整 的 层次 聚 类 树 树 状 图 。 

如 图 3-8 所 示 为 3.2.2 中 例子 的 层次 聚 类 树 树 状 图 示意 图 。 





A B € 
图 3-8 层次 聚 类 树 树 状 图 


在 构造 层次 聚 类 树 的 过 程 中 , 最 小 的 簇 依据 相似 度 规则 合并 在 一 起 
创建 下 一 个 较 高 层次 的 簇 , 这 一 层次 的 簇 再 合并 在 一 起 就 创建 了 再 下 一 
层次 的 簇 。 通过 这 样 的 迭代 过 程 , 就 可 以 生成 一 颗 带 嵌 套 的 聚 类 树 来 完 
成 聚 类 。 聚 类 原始 数据 处 在 树 的 最 底层 , 在 树 的 项 层 有 一 个 根 节点 聚 类 ， 
覆盖 了 全 部 数据 节点 。 兄 弟 节点 聚 类 则 涵盖 了 它们 共同 的 父 节点 中 的 所 
有 的 数据 点 。 

通过 将 数据 不 停 地 拆 分 或 重组 , 最 终 将 数据 转 为 一 棵 符合 一 定 标准 
的 具有 层次 结构 的 聚 类 树 ， 这 就 是 层次 聚 类 的 过 程 。 

层次 聚 类 树 的 作用 是 为 我 们 充分 展示 聚 类 的 整个 过 程 , 帮助 我 们 从 
可 视 化 的 层面 了 解 哪 些 数据 被 归 聚 为 一 类 。 最 终 聚 为 几 个 类 别 ， 这 需要 
依据 对 不 同类 的 特征 的 区 隔 程度 阀 值 了 来 决定 , 在 7 内 的 数据 簇 归 为 同 
一 类 。 这 样 得 到 的 数据 艇 类 的 个 数 即 为 聚 类 的 类 别 数 。 

层次 聚 类 的 优点 是 它 完成 了 整个 聚 类 的 过 程 ， 通 过 聚 类 树 ， 可 以 根 
据 树 结构 来 得 到 簇 的 数目 ， 而 改变 簇 的 数目 无 须 重新 计算 数据 点 的 归 
类 ,大 大 提高 了 算法 的 灵活 性 和 实用 性 。 层 次 聚 类 的 缺点 是 计算 量 比较 
大 , 特别 是 采用 平均 距离 方法 ， 因 为 每 次 欠 代 过 程 都 需要 计算 复 间 所 有 
数据 点 间 的 两 两 距离 。 而 且 ， 层 次 聚 类 得 到 的 结果 只 是 局 部 最 优 ， 不 一 
定 是 全 局 最 优 。 


3.2.4 ”聚合 分 析 方法 应 用 例子 


假设 有 原始 数据 A、B、C、D、E， 其 数值 如 表 3-6 所 示 。 
表 3-6 A、B、C、D、E 数 值 表 




















第 1 列 是 原始 数据 ， 后 面 4 列 是 聚合 过 程 数据 ,其 中 以 质心 作 合并 
簇 值 。 

在 区 隔 程度 阀 值 7=3 时 ， 可 以 得 到 3 个 簇 类 (A,B)、(C,D)、E。 

这 个 聚合 过 程 对 应 的 层次 聚 类 树 如 图 3-9 所 示 。 

图 中 横 线 下 方 为 聚 类 得 到 的 3 个 簇 类 。 

实际 上 ,这 里 A、B、C、D、E 的 数值 分 别 表示 首尔 、 香 港 、 北 京 、 
上 海 、 东 京 的 GDP 值 。 以 3 (〈 即 3 千 亿 元 ) 作为 区 分 标准 。 

通过 上 面 描述 的 聚合 过 程 , 可 以 将 亚洲 这 5 个 最 发 达 的 城市 划分 成 
以 下 3 个 方 阵 。 
口 “第 一 方 阵 ， 东 京 。 
口 “第 二 方 阵 ， 上 海 、 北 京 。 
口 ”第 三 方 阵 : 香港 、 首 尔 。 
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图 3-9 聚合 过 程 对 应 的 层次 聚 类 树 


3.3 ” 聚 类 在 实际 场景 中 的 应 用 案例 


1. 聚 类 分 析 在 电网 运行 中 ， 可 以 大 幅度 提高 电网 业务 的 安全 运行 
水 平 


通过 对 电网 、 调 度 网 等 重要 生产 业务 的 历史 故障 和 缺陷 情况 进行 故 
障 概率 聚 类 分 析 ， 发 掘 故 障 因素 关联 性 、 共 性 规律 ， 从 而 制定 相应 的 防 
范 对 策 和 措施 , 在 故障 和 缺陷 发 生 之 前 进行 预防 式 防护 ,达到 大 幅度 提 
升 电网 运行 可 靠 性 的 目的 。 
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2. 聚 类 分 析 在 电力 用 户 用 电 行 为 分 析 中 ， 可 以 大 幅度 提高 售 电 策 
略 的 准确 性 


通过 对 电力 用 户 用 电 规 模 、 用 电 模 式 作 聚 类 分 析 ， 就 能 将 用 户 划 分 
成 不 同 的 类 别 ， 并 分 别 制定 相应 的 售 电 策略 和 风险 防范 策略 。 

电力 公司 通过 客户 价值 细 分 模型 ， 对 客户 基本 信息 、 用 电 负荷 、 违 
章 历 史 等 方面 的 用 电 行 为 特征 进行 聚 类 分 析 , 将 多 个 用 户 的 用 电 方式 通 
过 聚 类 分 析 形 成 用 电 属 性 相似 的 行业 群体 , 根据 客户 对 电力 公司 的 贡献 
度 、 用 电 变 化 趋势 、 风 险 程 度 等 情况 ， 将 客户 细 分 为 多 种 类 别 ， 推 进 客 
户 细 分 管理 、 欠 费 和 用 电 风 险 有 效 预 测 、 配 用 电 错 峰 调度 ， 实 现 个 性 化 
营销 和 服务 ， 促 进 服务 质量 和 防范 风险 能 力 的 不 断 提升 。 


3. 聚 类 分 析 在 电 商 的 应 用 


电 商 将 交易 信息 ， 包 括 消费 者 购买 时 间 、 购 买 商品 、 购 买 数 量 、 支 
付 金额 、 性 别 、 年 龄 、 地 域 分 布 、 关 联 收藏 等 进行 聚 类 分 析 ， 可 以 了 解 客 
户 的 消费 习惯 , 制定 对 应 的 商品 营销 推广 活动 , 提高 成 交 转 化 率 和 成 交 率 。 


,3.4 聚 类 的 实现 例子 


本 节 通 过 例子 展示 K-means 聚 类 的 实现 例子 。 
大 数据 计算 集群 :5 台 服 务 器 , 包括 主 节 点 master， 从 节点 slavel、 
slave2、slave3， 以 及 提交 作业 请 求 的 客户 端 client， 如 图 3-10 所 示 。 


主 节 点 (master) 


10.30.216.2 
从 节点 (slave1) 从 节点 (slave2) 从 节点 (slave3) 客户 端 (client) 
10.30.240.14 10.30.32.7 10.30.248.8 10.30.224.17 


图 3-10 大 数据 集群 节点 


通过 master 的 50070 端口 ,可 以 访问 到 该 Hadoop 集群 的 基本 信息 ， 
3-11 是 其 部 分 信息 示意 图 ， 如 集群 ID、HDFS 容量 等 。 
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Tn © | © 10.302162:50070/dfsheatth htmi#tab-overview 


OvervieW master8020 (active) 


Star ted: Tue Way 16 16: 基 :21 CST 2017 

Version: 2.7.1，xrl5ecc8Tccf4a0229f35af086fc55de536e6ce5573 
Compiled: 2015-06-20T06:04Z by jenkins {ron (detached fron 15ecc8T) 
Cluster PD: CID-24209862-f¢8c-4080-8752-72f6b31b8453 

Bock Pool D: BP-603136522-10. 30. 216. 2-1494923771235 

Summary 


Security is off. 

Safenode 1s off. 

11 files and directories, 1 blocks = 12 total filesystea object(s). 

Heap Wenory used 231.58 WB of 958.5 WD Hesp Menory. Max Heap Nenory is 958.5 WB. 


Hon Heap Kenory used 40.71 WD of 40.9%4 WD Connited Ron Heap Nonory. Max Non Heap Neaory is 130 到. 
Conf igured Cpacity: 名 .站 0 


DFS Used; 郝 团 (0) 


3-11 Hadoop 集群 的 基本 信息 
图 3-12 列 出 了 构成 Hadoop 的 3 个 Datanode 基本 信息 ， 包 括 各 节 
点 的 HDFS 使 用 情况 等 。 


Datanode Information 


In operation 


Ta Ust eontact 。 Mnin State 。 Caacity eed 。 Won 8S 了 ol Rosining Hodes Mock pool used 
aaraz:s00lg 0 30.32 7:50010) 。 Serviee 是 16 十 Zz tm 1 15 1 OW) 
arel:500l0 (10.30.200. 14:50010) 2 和 service gm IB 290% tng 1 i818 OW 
aave3:50010 (0.30.248.8.50010) 2 了 service amm 1 2%0% Te 1 18 1 (0) 


3-12 ”Datanode 的 基本 信息 


需要 聚 类 挖掘 的 数据 : 


选取 3 维 数据 组 ， 共 6 个 数据 ， 具 体 如 下 : 
0.0 0.0 0.0 


0.1 0.1 0.1 
0.2 0.2 0.2 
9.0 9.0 9.0 
21I9181 
929292 


聚 类 的 目标 是 将 原始 数据 分 成 两 类 ， 并 找 出 每 一 类 的 质心 。 


实施 方法 过 程 如 下 。 
从 本 地 连接 slavel: 

[c:\~]$ ssh 10.30.240.14 
Connecting to 10.30.240.14:22... 
Connection established. 


To escape to local shell, press 'Ctrl+Alt+]'. 


查看 Hadoop 工作 目录 : 


[root@slave1 ~]# cd /usr/cstor/hadoop 

[root@slave1 hadoop]# Is -| 

total 28 

-rw-r--r-- 1 10021 10021 15429 May 16 16:35 LICENSE .txt 
-rw-r--r-- 1 10021 10021 101 May 16 16:35 NOTICE.txt 
-rw-r--r-- 1 10021 10021 1366 May 16 16:35 README .txt 
drwxr-xr-x 2 10021 10021 194 Jun 29 2015 bin 
drwxr-xr-x 4 root root 37 May 16 16:36 cloud 
drwxr-xr-x 3 10021 10021 20 Jun 29 2015 etc 
drwxr-xr-x 2 10021 10021 106 Jun 29 2015 include 
drwxr-xr-x 3 10021 10021 20 Jun 29 2015 lib 
drwxr-xr-x 2 10021 10021 239 Jun 29 2015 libexec 
drwxr-xr-x 3 root root 211 May 16 16:36 logs 
drwxr-xr-x 2 10021 10021 4096 Jun 29 2015 sbin 
drwxr-xr-x 4 10021 10021 31 Jun 29 2015 share 
[root@slave1 hadoop]# Is -1 /34 

ls: cannot access /34: No such file or directory 


设置 JAVA_HOME 路 径 : 


[root@slave1 ~]# export JAVA_HOME=/usrlocal/jdk1.7.0_79 


创建 Hadoop 工作 目录 /34/in: 


[root@slave1 hadoop]# bin/hadoop fs -mkdir -p /34/in 

17/05/17 06:04:10 WARN util.NativeCodeLoader: Unable to load native- 
hadoop library for your platform... using builtin-java classes where 
applicable 

[root@slave1 hadoop]# bin/hadoop fs -ls / 

17/05/17 06:04:36 WARN util.NativeCodeLoader: Unable to load native- 
hadoop library for your platform... using builtin-java classes where applicable 
Found 1 items 

drwxr-xr-x -root supergroup 0 2017-05-16 17:10 /34 
[root@slave1 hadoop]# bin/hadoop fs -ls /34 

17/05/17 06:04:44 WARN util.NativeCodeLoader: Unable to load native- 


hadoop library for your platform... using builtin-java classes where applicable 
Found 1 items 


drwxr-xr-x -root supergroup 0 2017-05-16 17:10 /34/in 
[root@slave1 hadoop]# Is -| /usr/cstor 
total 8 


drwxr-xr-x 11 10021 10021 174 May 16 16:36 hadoop 
drwxr-xr-x 12 root root 4096 Nov 14 2016 leveldb 
drwxr-xr-x 3root root 91 Nov 14 2016 mongodb 
drwxr-xr-x 6root root 56 Feb 14 12:25 opencv3 
drwxr-xr-x 8root root 197 Feb 14 12:25 plate 
drwxr-xr-x 14 root root 332 Feb 14 12:26 platerecog 
drwxrwxr-x 6root root 309Nov14 2016 redis 
drwxrwxr-x 9 2000 2000 89Mar18 2014 scala 
drwxr-xr-x 14 500 500 234 May 16 16:36 spark 
drwxr-xr-x 10 1000 1000 4096 Feb 20 2014 zookeeper 


查看 需要 聚 类 的 数据 文件 kmeans_data.txt 的 所 在 目录 : 


[root@slave1 hadoop]# Is -| /usr/cstor/spark/data/mllib 

total 796 

drwxr-xr-x 2 500 500 94 Dec 22 2015 als 

-rw-r--r-- 1 500 500 63973 Dec 22 2015 gmm_data.txt 

-rw-r--r-- 1 500 500 72 Dec 22 2015 kmeans data.txt 

drwxr-xr-x 2 500 500 25 Dec 22 2015 Ir-data 

-rw-r--r-- 1 500 500 197105 Dec 22 2015 Ir_data.txt 

-rw-r--r-- 1 500 500 24 Dec 22 2015 pagerank_data.txt 

-rw-r--r-- 1 500 500 164 Dec 22 2015 pic_data.txt 

drwxr-xr-x 2 500 500 23 Dec 22 2015 ridge-data 

-rw-r--r-- 1 500 500 104736 Dec 22 2015 sample_binary_classification_ 
data.txt 

-rw-r--r-- 1 500 500 68 Dec 22 2015 sample_fpgrowth.txt 

-rw-r--r-- 1 500 500 1598 Dec 22 2015 sample_isotonic_regression_ 
data .txt 

-rw-r--r-- 1 500 500 264 Dec 22 2015 sample_lda_data.txt 

-rw-r--r-- 1 500 500 104736 Dec 22 2015 sample_libsvm_data txt 
-rwxr-xr-x 1 500 500 119069 Dec 22 2015 sample_linear_regression_ 
data txt 

-rw-r--r-- 1 500 500 14351 Dec 22 2015 sample_movielens_data .txt 
-rw-r--r-- 1 500 500 6953 Dec 22 2015 sample_multiclass_classification _ 
data txt 

-rw-r--r-- 1 500 500 95 Dec 22 2015 sample_naive_bayes_data.txt 
-rw-r--r-- 1 500 500 39474 Dec 22 2015 sample_svm_data.txt 

-rw-r--r-- 1 500 500 115476 Dec 22 2015 sample_tree_data.csv 
[root@slave1 hadoop]# Is -| /usr/cstor/spark/data/mllib/kmeans_data.txt 


-rw-r--r-- 1 500 500 72 Dec 22 2015 /usr/cstor/spark/data/mllib/kmeans_ 
data .txt 


将 需要 聚 类 的 数据 文件 kmeans_data.txt 装 进 Hadoop 的 HDFS 分 布 
式 文件 系统 中 ， 并 显示 验证 确认 无 误 : 


[root@slave1 hadoop]# pwd 

/usr/cstor/hadoop 

[root@slave1 hadoop]# bin/hdfs dfs -put /usr/cstor/spark/data/mllib/kmeans_ 
data.txt /34/in 

17/05/17 06:09:18 WARN util.NativeCodeLoader: Unable to load native- 
hadoop library for your platform... using builtin-java classes where applicable 
[root@slave1 hadoop]# bin/hadoop fs -ls /34/in 

17/05/17 06:09:38 WARN util.NativeCodeLoader: Unable to load native- 
hadoop library for your platform... using builtin-java classes where applicable 
Found 1 items 

-rw-r--r-- 3 root supergroup 72 2017-05-17 06:09/34/in/kmeans_data.txt 
[root@slave1 hadoop]# bin/hadoop fs -cat /34/in/kmeans_data.txt 
17/05/17 06:10:31 WARN util.NativeCodeLoader: Unable to load native- 
hadoop library for your platform... using builtin-java classes where applicable 
0.00.00.0 

0.10.10.1 

02 1020:2 

9.0 9.0 9.0 

9.19.19.1 

9.2 9.2 9.2 


验证 与 master 网 络 连接 正常 并 进入 Spark 工作 目录 : 


[root@slave1 hadoop]# pwd 

/usr/cstor/hadoop 

[root@slave1 hadoop]# cd ../spark 

[root@slave1 spark]# pwd 

/usr/cstor/spark 

[root@slave1 spark]# ping master 

PING master (10.30.216.2) 56(84) bytes of data. 

64 bytes from master (10.30.216.2): icmp_seq=1 ttl=62 time=0.380 ms 
64 bytes from master (10.30.216.2): icmp_seq=2 ttl=62 time=0.262 ms 
64 bytes from master (10.30.216.2): icmp_seq=3 ttl=62 time=0.327 ms 
64 bytes from master (10.30.216.2): icmp_seq=4 ttl=62 time=0.313 ms 
64 bytes from master (10.30.216.2): icmp_seq=5 ttl=62 time=0.316 ms 
64 bytes from master (10.30.216.2): icmp_seq=6 ttl=62 time=0.309 ms 
64 bytes from master (10.30.216.2): icmp_seq=7 ttl=62 time=0.271 ms 
64 bytes from master (10.30.216.2): icmp_seq=8 ttl=62 time=0.263 ms 
64 bytes from master (10.30.216.2): icmp_seq=9 ttl=62 time=0.278 ms 


64 bytes from master (10.30.216.2): icmp_seq=10 ttl=62 time=0.310 ms 
64 bytes from master (10.30.216.2): icmp_seq=11 ttl=62 time=0.309 ms 
64 bytes from master (10.30.216.2): icmp_seq=12 ttl=62 time=0.300 ms 
64 bytes from master (10.30.216.2): icmp_seq=13 ttl=62 time=0.319 ms 
64 bytes from master (10.30.216.2): icmp_seq=14 ttl=62 time=0.308 ms 
»O: 

--- Master ping statistics --- 

14 packets transmitted, 14 received, 0% packet loss, time 13000ms 

rtt min/avg/max/mdev = 0.262/0.304/0.380/0.035 ms 


进入 spark-shell 接口 scala: 
[root@slave1 spark]# bin/spark-shell --master spark://master:7077 


进入 scala 解释 器 ， 即 scala 的 shell 环境 : 


scala> 


以 下 为 运行 K-means spark 算法 的 过 程 ， 其 中 以 scala> 开 头 的 行为 
输入 的 命令 ， 跟 随 其 后 的 行列 出 命令 执行 主要 结果 。 
导入 所 需 的 包 : 


scala> import breeze.linalg.{Vector DenseVector, squaredDistance} 
import breeze .linalg.{Vector, DenseVector, squaredDistance} 


scala> import org.apache.spark.{SparkConf, SparkContext} 
import org.apache.spark.{SparkConf, SparkContext} 


scala> import org.apache.spark.SparkContext._ 
import org.apache.spark.SparkContext._ 


定义 分 析 方 法 和 计算 最 短 距离 点 的 方法 (method): 


scala> def parseVector(line: String): Vector[Double] = { 
| DenseVector(line.split(' ').map(_.toDouble)) 
册 


parseVector: (line: String)breeze.linalg.Vector[Double] 


scala> def closestPoint(p: Vector[Double], centers: Array[Vector[Double]]): 
Int ={ 

|var bestiIndex =0 

| var closest = Double.Positivelnfinity 

| for (i <- 0 until centers.length) { 

| val tempDist = squaredDistance(p, centers(i)) 

| if (tempDist < closest) { 

| closest = tempDist 


| bestindex =i 

|} 

用 

| bestindex 

1} 
closestPoint: (p: breeze.linalg.Vector[Double], centers: Array[breeze.linalg. 
Vector[Double]])Int 


装 入 并 读 取 挖掘 数据 文件 : 


scala> val lines = sc.textFile("/34/in/kmeans_data.txt") 

17/05/17 06:14:50 INFO storage.MemoryStore: Block broadcast_0 stored 
as values in memory (estimated size 86.5 KB, free 86.5 KB) 

17/05/17 06:14:50 INFO storage.MemoryStore: Block broadcast_0_piece0 
stored as bytes in memory (estimated size 19.4 KB, free 105.9 KB) 
17/05/17 06:14:50 INFO storage.Block Managerlnfo: Added broadcast 0_ 
piece0 in memory on 10.30.240.14:42657 (size: 19.4 KB, free: 511.5 MB) 
17/05/17 06:14:50 INFO spark.SparkContext: Created broadcast 0 from 
textFile at <console>:32 

lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDDI[1] at textFile 
at <console>:32 


scala> val data = lines.map(parseVector _).cache() 


data: org.apache.spark.rdd.RDD[breeze.linalg.Vector[Double]] = MapPartitionsRDD[2] 


at map at <console>:36 
定义 的 数目 : 
scala> val K = "2".tolnt 


K: Int=2 


scala> val convergeDist = "0.1".toDouble 
convergeDist: Double = 0.1 


初始 化 K 个 簇 : 


scala> val kPoints = data.takeSample(withReplacement = false, K, 42). 
toArray 

kPoints: Array[breeze.linalg.Vector[Double]] = Array(DenseVector(0.1, 0.1, 
0.1), DenseVector(9.2, 9.2, 9.2)) 


计算 每 个 点 的 距离 并 调整 徐 ， 直 到 K 个 簇 不 再 有 变动 ， 得 到 挖掘 
结果 : 


scala> var tempDist = 1.0 
tempDist: Double = 1.0 


scala> while(tempDist > convergeDist) { 
| val closest = data.map (p => (closestPoint(p, kPoints), (p, 1))) 
| val pointStats = closest.reduceByKey{case ((p1, c1), (p2, c2)) => 
(pirTp2, ci c2 
| val newPoints = pointStats.map {pair => 
| (pair._1, pair._2._1* (1.0/ pair. 2. 2))}.collectAsMap() 
|tempDist = 0.0 
| for (i <- 0 until K) { 
| tempDist += squaredDistance(kPoints(i), newPoints(i)) 
1} 
| for (newP <- newPoints) { 
| kPoints(newP._1) = newP. 2 


I 


| printin("Finished iteration (delta = " + tempDist + ")") 


1} 


scala> kPoints.foreach(println) 
DenseVector(0.1, 0.1, 0.1) 
DenseVector(9.099999999999998, 9.099999999999998, 9.099999999999998) 


原 数 据 组 被 分 成 两 类 ， 以 上 分 别 是 每 个 类 的 质心 。 


3.5 ”作业 与 练习 


. 请 说 明 聚 类 的 过 程 。 

. 请 说 明 两 种 聚 类 方法 的 评价 标准 。 

. 请 列 出 3 种 以 上 到 类 算法 。 

.区 -means 算法 是 层次 聚 类 还 是 划分 聚 类 ? 请 说 明 其 算法 流程 。 
.请 举例 并 画 出 一 颗 层 次 聚 类 树 ， 并 说 明 其 作用 。 

. 请 举例 说 明 欧 氏 距 离 〈Euclidean Distance) 的 计算 过 程 。 

. 请 举例 说 明 聚 类 方法 在 实际 生活 中 的 应 用 。 


站 wm 一 
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关联 规则 


关联 规则 挖掘 (Association Rule Mining) 是 数据 挖掘 中 的 一 个 主要 
的 研究 内 容 和 方向 。 关联 规 则 依据 大 量 数据 中 存在 的 特定 关系 , 通过 对 
数据 的 关联 分 析 ， 发 现 数据 之 间 的 联系 ， 形 成 数据 的 聚 类 或 分 类 。 

关联 规则 最 早 是 为 了 发 现 超市 交易 数据 库 中 不 同 的 商品 之 间 的 关 
系 ， 现 在 已 经 在 电 商 、 零 售 、 大 气 物 理 、 生 物 医学 等 多 个 方面 有 了 广泛 
的 应 用 ,关联 规则 挖掘 在 数据 挖掘 中 是 一 个 重要 的 课题 ， 最 近 几 年 已 被 
业界 广泛 研究 。 

本 章 将 介绍 关联 规则 的 基本 概念 、 分 类 、 具 体 挖掘 过 程 ， 以 及 经 典 
的 关联 规则 挖掘 Apriori 算法 ， 最 后 进行 实战 练习 ， 即 解决 关联 规则 挖 
掘 实例 。 


4.1 关联 规则 概述 
4.1.1 经典 案例 导入 


在 营销 届 流 传 着 一 个 “啤酒 与 尿布 ”的 神话 ,沃尔玛 将 “啤酒 ”与 
“尿布 ”两 个 属性 上 完全 没有 任何 关系 的 商品 摆 放 在 一 起 进行 销售 ， 出 
乎 意料 的 是 ， 这 两 个 商品 都 获得 了 不 菲 的 销售 收益 。 

在 1998 年 出 版 的 《哈佛 商业 评论 》 中 ， 将 “啤酒 与 尿布 ”的 案例 
进行 正式 刊登 。 将 尿布 和 啤酒 摆 在 一 起 出 售 ， 反 而 促使 两 者 销量 双双 增 
加 的 有 趣 现象 ,被 各 个 商家 竞相 效仿 并 津津 乐 道 。 原来 ,美国 的 妇女 们 
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经 常会 嘱 只 她 们 的 丈夫 下 班 以 后 要 为 孩子 买 尿布 。 而 丈夫 在 买 完 尿 布 之 
后 又 要 顺手 买 回 自己 爱 喝 的 啤酒 , 因此 啤酒 和 尿布 在 一 起 购买 的 机 会 还 
是 很 多 的 。 

关联 规则 最 初 是 针对 购物 篮 分 析 〈Market Basket Analysis) 问题 提 
出 的 。 商 家 最 为 关心 的 就 是 顾客 的 购物 习惯 , 想 了 解 哪些 商品 顾客 可 能 
会 在 一 次 购物 时 同时 购买 , 为 回答 该 问题 , 可 以 对 商店 的 顾客 事务 零售 
数量 进行 购物 篮 分 析 。 该 过 程 通过 发 现 顾 客 放 入 “购物 篮 ” 中 的 不 同 商 
品 之 间 的 关联 , 分 析 顾 客 的 购物 习惯 。 这 种 关联 的 发 现 可 以 帮助 零售 商 
了 解 哪些 商品 频繁 地 被 顾客 同时 购买 ， 从 而 帮助 他 们 开发 更 好 的 营销 
策略 。 

这 个 发 现 为 商家 带 来 了 大 量 的 利润 , 那么 商家 是 如 何 从 浩如烟海 却 
又 杂乱 无 章 的 数据 中 , 发 现 啤酒 和 尿布 销售 之 间 的 联系 呢 ? 这 又 给 了 我 
们 什么 样 的 启示 呢 ? 这 其 实 就 是 本 章 所 讲述 的 重点 内 容 关联 规则 ! 


4.1.2 ”关联 规则 的 基本 概念 和 定义 





关联 规则 概念 最 早 是 由 Agrawal 等 人 在 1993 年 首先 提出 的 ， 最 初 
是 针对 购物 篮 分 析 问 题 提 出 的 , 其 目的 是 为 了 发 现 交 易 数 据 库 中 不 同 商 
品 之 间 的 联系 规则 。Agrawal 等 人 于 1993 年 提出 了 关联 规则 挖掘 算法 
AIS, 但 是 性 能 较 差 。1994 年 ， 他 们 建立 了 项 目 集 格 空间 理论 ， 并 提出 
了 著名 的 Apriori 算法 , 至 今 Apriori 仍然 作为 关联 规则 挖掘 的 经 典 算法 
被 广泛 讨论 , 以 后 诸多 的 研究 人 员 对 关联 规则 的 挖掘 问题 进行 了 大 量 的 
研究 。 


1. 基本 概念 


为 更 加 清晰 地 了 解 关 联 规则 的 基本 概念 , 先 来 学 习 几 个 关联 规则 方 
法 中 常用 的 一 些 概念 。 

1) 项 (Item)、 项 集 (Itemset)、 太 项 集 与 事务 

口 项 : 是 指数 据 库 中 不 可 分 割 的 最 小 单位 。 
项 集 : 是 指 多 个 项 的 集合 ， 其 中 ， 空 集 是 指 不 包含 任何 项 的 项 集 。 
太 项 集 : 是 指 由 大 个 项 构成 的 项 集 组 合 。 
事务 : 是 指 用 户 定义 的 一 个 数据 库 操 作 序列 ， 这 些 操作 序列 是 
一 个 不 可 分 割 的 工作 单位 。 

下 面 通过 一 个 实例 来 详细 说 明 以 上 概念 。 

假设 某 连 锁 超市 的 购物 篮 数据 如 表 4-1 所 示 , 购物 篮 数 据 由 顾客 标 
识 TID 和 顾客 购买 信息 〈 项 集 ) 组 成 。 其 中 ， 顾 客 购买 信息 中 的 每 一 
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个 物品 称 作 一 个 项 , 例如 ，{ 面 包 }。 顾 客 每 一 次 购买 的 所 有 物品 构成 一 
个 项 集 , 例如 ，{ 面 包 , 牛 奶 }。 因 此 ，{ 面 包 , 尿 布 ,啤酒 ,鸡蛋 } 是 由 4 个 项 
构成 的 项 集 ， 称 为 “4- 项 集 ”。 一 个 顾客 购买 的 一 次 记录 ， 由 一 个 顾客 
标识 TID 和 一 个 项 集 进行 表示 , 称 作 一 个 事务 ,， 如 表 4-1 中 每 一 行 即 对 
应 着 一 个 事务 ， 由 顾客 标识 TID 和 项 集 构 成 。 


表 4-1 某 连锁 超市 的 购物 篮 数据 








TID 项 集 
1 {面包 ,牛奶 } 
2 {面包 ,尿布 ,啤酒 .鸡蛋 } 
3 {牛奶 ,尿布 ,啤酒 ,可 乐 } 
4 {面包 ,牛奶 ,尿布 ,啤酒 } 
5 {面包 ,牛奶 ,尿布 ,可 乐 } 
空 集 是 指 不 包含 任何 项 的 项 集 。 


2) 频繁 项 集 (Frequent Itemset) 

频繁 项 集 是 指 在 所 有 训练 元 组 中 同时 出 现 的 次 数 超过 人 工 定义 的 
闵 值 的 项 集 。 在 关联 规则 的 挖掘 过 程 中 , 一 般 只 保留 候选 项 集中 满足 支 
持 度 条 件 的 项 集 ， 不 满足 条 件 的 舍弃 。 

3) 极 大 频繁 项 集 (Frequent Large Itemset) 

不 存在 包含 当前 频繁 项 集 的 频繁 超 集 , 则 当前 频繁 项 集 就 是 极 大 频 
繁 项 集 。 

通过 以 上 定义 , 可 以 引出 关联 规则 的 基本 形式 。 关联 规则 就 是 有 关 
联 的 规则 ， 定 义 形式 如 下 : 

假设 两 个 不 相交 的 非 空 项 集 了 ( 即 x.yYc N，XNy=g)。 如 
果 有 -也 就 说 忒 = 了 是 一 条 关联 规则 。 例 如 ， 在 表 4-1 中 ， 可 以 发 现 
购买 啤酒 就 一 定 会 购买 尿布 ， 因 此 {啤酒 } 一 {尿布} 就 是 一 条 关联 规则 。 
关联 规则 的 强度 用 支持 度 (Support) 和 置信 和 度 (Confidence) 来 描述 。 

4) 支持 度 (Support) 

支持 度 是 指 项 集 在 所 有 训练 元 组 中 同时 出 现 的 次 数 , 因此 , 支持 度 
可 以 表述 为 support& 一 了 } KKUY |/N 。 其 中 ,X.YcN, XNyY=g， 
|X UY | 表示 和 集合 了 与 了 在 一 个 事务 中 同时 出 现 的 次 数 ，|N| 表 示 数 据 记 
录 的 总 个 数 。 

5) 置信 度 (Confidence) 

置信 度 也 叫 置信 水 平 。 

置信 度 可 以 表述 为 : Confidence(X 一 了 )=|XUYI/|X|=Support(X 一 了 )/ 
Support( 工 ) ， 其 中 ， 演 了 在 本 过 们 证 二 交 1XUY | 表示 集合 对 与 了 在 
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一 个 事务 中 同时 出 现 的 次 数 ，| 习 表示 碟 出 现 的 总 次 数 。 

因此 , 假设 confidence(xY 一 了 ) 为 60%， 表 示 60% 的 对 出 现 的 同时 也 
出 现 了 了 。 

例如 ， 在 表 4-1 中 ，Confidence({ 啤 酒 } 一 {尿布 })= 啤 酒 和 尿布 同时 
出 现 的 次 数 /啤酒 出 现 的 次 数 = 3/3 = 100%; Confidence ({ 尿 布 } 一 {啤酒 }) = 
啤酒 和 尿布 同时 出 现 的 次 数 /尿布 出 现 的 次 数 = 3/4 = 75%。 

支持 度 和 置信 度 越 高 , 说 明 规 则 越 强 , 关联 规则 挖掘 就 是 挖掘 出 满 
足 一 定 强度 的 规则 。 


2. 关联 规则 的 定义 


关联 规则 是 数据 挖掘 中 最 活跃 的 研究 方法 之 一 , 是 指 搜索 业务 系统 
中 的 所 有 细节 或 事务 , 找 出 所 有 能 将 一 组 事件 或 数据 项 与 另 一 组 事件 或 
数据 项 联系 起 来 的 规则 , 以 获得 存在 于 数据 库 中 的 不 为 人 知 的 或 不 能 确 
定 的 信息 ， 它 侧重 于 确定 数据 中 不 同 领域 之 间 的 联系 ,也 是 在 无 指导 学 
习 系统 中 挖掘 本 地 模式 的 最 普通 形式 。 
一 般 来 说 ， 关 联 规则 挖掘 是 指 从 一 个 大 型 的 数据 集 (Dataset) 发 现 
有 趣 的 关联 (Association ) 或 相关 关系 (Correlation)， 即 从 数据 集中 识 
别 出 频 繁 出 现 的 属性 值 集 (Sets of Attribute Values)， 也 称 为 频繁 项 集 
(Frequent Itemsets， 频 繁 集 )， 然 后 利用 这 些 频 繁 项 集 创建 描述 关联 关 
系 的 规则 的 过 程 。 
由 关联 规则 挖掘 中 涉及 的 几 个 基本 概念 ,可 以 对 关联 、 关 联 规则 和 
关联 分 析 进 行 定 义 。 
口 关联 (Association): 两 个 或 多 个 变量 的 取 值 之 间 存 在 某 种 规律 性 。 
口 ”关联 规则 (Association Rule): 指 从 事务 数据 库 、 关 系数 据 库 
和 其 他 信息 存储 中 的 大 量 数据 的 项 集 之 间 发 现 有 趣 的 、 频 繁 出 
现 的 模式 、 关 联 和 相关 性 。 
口 关联 分 析 (Association Analysis): 用 于 发 现 隐藏 在 大 型 数据 集 
中 的 令 人 感 兴趣 的 联系 。 所 发 现 的 联系 可 以 用 关联 规则 或 者 频 
繁 项 集 的 形式 表示 。 关 联 规则 挖掘 就 是 从 大 量 的 数据 中 挖掘 出 
描述 数据 项 之 间 相 互联 系 的 有 价值 的 有 关 知 识 。 
因此 ， 一 个 事务 数据 库 中 的 关联 规则 挖掘 可 以 抽象 描述 如 下 。 
设 天 人 …,} 是 一 个 项 目 集合 ,事务 数据 库 D={T1,72,…,7,} 是 由 
一 系列 具有 唯一 标识 TID 的 事务 组 成 ， 每 个 事务 T; (二 1,2,…,n) 都 对 
应 T 上 的 一 个 子 集 。 
设 r cI， 项 目 集 在 D 上 的 支持 度 是 包含 工 的 事务 在 D 中 所 占 


的 百分比 ， 即 support(7) =Iltre D 1c 人 DIMIID1。 一 个 定义 在 T 和 D 上 
的 形 如 Zz 一 的 关联 规则 通过 满足 一 定 的 可 信 度 来 给 出 。 

支持 度 可 以 表述 为 : support(1, 一 Z,)= (UL)/n = 集合 1 与 集合 
中 的 项 在 一 条 记录 中 同时 出 现 的 次 数 /数据 记录 的 个 数 。 置 信 度 可 以 表 
述 为 : confidencaC 7 = Suppqit(I， )/supgio= 集 合 1 与 集合 7 
中 的 项 在 一 条 记录 中 同时 出 现 的 次 数 /集合 x 出 现 的 个 数 。 其 中 站 . <c7T， 
LNI,=8。 

给 定 一 个 事务 数据 库 , 关联 规则 挖掘 问题 就 是 通过 用 户 指定 最 小 支 
持 度 (Minsupport) 和 最 小 可 信和 度 〈(Minconfidence) 来 寻找 合适 关联 规 
则 的 过 程 。 如 果 满 足 最 小 支持 度 阐 值 和 最 小 置信 度 阔 值 ， 则 称 关联 规则 
是 有 意义 的 。 这 些 阔 值 由 用 户 或 者 专家 设 定 。 

一 般 地 ， 关 联 规则 挖掘 问题 可 以 划分 成 以 下 两 个 子 问题 。 

1) 发 现 频繁 项 目 集 

通过 用 户 给 定 的 Minsupport, 寻找 所 有 频繁 项 目 集 , 即 满足 Support 
不 小 于 Minsupport 的 项 目 集 。 事 实 上 ， 这 些 频繁 项 目 集 可 能 具有 包含 
关系 。 一 般 地 , 我 们 只 关心 那些 不 被 其 他 频繁 项 目 集 所 包含 的 所 谓 频 繁 
大 项 集 的 集合 。 这 些 频繁 大 项 集 是 形成 关联 规则 的 基础 。 

2) 生成 关联 规则 

通过 用 户 给 定 的 Minconfidence， 在 每 个 最 大 频繁 项 目 集中 寻找 
Confidence 不 小 于 Minconfidence 的 关联 规则 。 这 两 个 子 问题 主要 在 4.3 
节 中 进行 介绍 。 


4.1.3 ”关联 规则 的 分 类 


按照 不 同 标准 ， 关 联 规则 可 以 进行 如 下 分 类 。 

(1) 基于 规则 中 处 理 的 变量 的 类 别 ， 关 联 规则 可 以 分 为 布尔 型 和 数 
值 型 。 

布尔 型 关联 规则 一 般 处 理 的 数据 是 “属于 ”或 “不 属于 ”的 关系 ， 
处 理 的 值 都 是 离散 的 、 种 类 化 的 ， 它 显示 了 这 些 变量 之 间 的 从 属 关系 。 

例如 ，{ 面 包 } ~ {牛奶 } (Support=79%，Confidence=82%)， 只 考 
虑 关联 规则 中 的 数据 项 是 否 出 现 ， 是 布尔 型 关联 规则 。 

数值 型 关联 规则 中 的 数据 项 是 数量 型 , 可 以 和 多 维 关联 或 多 层 关 联 
规则 结合 起 来 ， 对 数值 型 字段 进行 处 理 ， 将 其 进行 动态 的 分 割 ， 或 者 直 
接 对 原始 的 数据 进行 处 理 ， 当 然 数值 型 关联 规则 中 也 可 以 包含 种 类 变 
量 。 例 如 ，{ 顾 客 年 龄 < (26-32)} 一 {尿布 }， 年 龄 是 一 个 数量 型 的 数据 项 。 


在 这 种 关联 规则 中 ， 一 般 将 数量 离散 化 成 为 区 间 。 
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(2) 基于 规则 中 数据 的 抽象 层次 ， 可 以 分 为 单 层 关联 规则 和 多 层 
关联 规则 。 

在 单 层 的 关联 规则 中 , 所 有 的 变量 都 没有 考虑 到 现实 的 数据 是 具有 
多 个 不 同 的 层次 的 ; 而 在 多 层 的 关联 规则 中 , 对 数据 的 多 层 性 已 经 进行 
了 充分 的 考虑 。 例 如 ，{IBM 台式 机 } 一 {Sony 打印 机 }， 是 一 个 细节 数 
据 上 的 单 层 关联 规则 ; {台式 机 } 一 {Sony 打印 机 }， 是 一 个 较 高 层次 和 
细节 层次 之 间 的 多 层 关联 规则 。 

(3) 基于 规则 中 涉及 的 数据 的 维 数 ， 关 联 规则 可 以 分 为 单 维 的 和 
多 维 的 。 

在 单 维 的 关联 规则 中 , 我 们 只 涉及 数据 的 一 个 维 ， 如 用 户 购买 的 物 
品 ; 而 在 多 维 的 关联 规则 中 , 要 处 理 的 数据 将 会 涉及 多 个 维 。 换 句 话说， 
单 维 关联 规则 是 处 理 单个 属性 中 的 一 些 关 系 , 多 维 关联 规则 是 处 理 各 个 
属性 之 间 的 某 些 关系 。 例 如 ，{ 啤 酒 } 一 { 尿 布 }， 这 条 规则 只 涉及 用 户 购 
买 的 物品 ，{ 性 别 =“ 女 ”} 一 { 职 业 =“ 秘 书 ”}， 这 条 规则 就 涉及 两 个 字 
段 的 信息 ， 是 两 个 维度 上 的 一 条 关联 规则 。 


4.2 关联 规则 的 挖掘 过 程 


关联 规则 挖掘 的 定义 : 给 定 一 个 交易 数据 集 7， 找 出 其 中 所 有 支持 度 
Support 宇 Minsupport、 置 信和 度 Confidence 宇 Minconfidence 的 关联 规则 。 
Support(1™ 1,)= (UN 


4.2.1 知识 回顾 


由 4.1 节 可 知 ， 关 联 规则 挖掘 是 从 事务 数据 库 中 挖掘 出 这 样 的 关联 
规则 :支持 度 和 置信 度 大 于 最 低 阔 值 , 这 个 阔 值 是 由 专家 或 用 户 指定 的 。 
根据 支持 度 和 置信 度 的 公式 , 要 想 找 出 满足 条 件 的 关联 规则 ,首先 必须 
找 出 这 样 的 集合 f=(U 17), 它 满足 F.,,, /7.,,,> Minsupport, 其 中 下 
是 T 中 包含 的 事务 的 个 数 ， 然 后 再 从 F 中 找 出 这 样 的 蕴含 式 7 一 7， 
它 满足 (1.7,).,,,/ 耻 .。 计 Mincont 并 且 X=F-1,。 则 五 集合 为 频繁 项 
目 集 ， 假 如 中 的 元 素 个 数 为 k， 频 繁 项 目 集 下 为 频繁 项 目 集 。 

挖掘 关联 规则 的 方法 很 多 , 最 简单 的 方法 就 是 可 以 穷 举 项 集 的 所 有 
组 合 , 并 测试 每 个 组 合 是否 满 足 条 件 。 假设 一 个 元 素 个 数 为 n 的 项 集 的 
组 合 个 数 为 2^n-1 (不 含 空 集 )， 所 需要 的 时 间 复 杂 度 则 为 0(2^N)。 但 
在 实际 应 用 中 , 即便 是 普通 的 超市 ,其 商品 的 项 集 数 也 在 万 数量 级 以 上 ， 
用 指数 时 间 复 杂 度 的 算法 不 能 在 可 接受 的 时 间 内 解决 问题 。 怎样 快速 控 


掘 出 满足 条 件 的 关联 规则 是 关联 挖掘 需要 解决 的 主要 问题 。 

仔细 想 一 下 ,我 们 会 发 现 对 于 { 啤 酒 一 尿 布 }、{ 尿 布 一 啤酒 } 这 两 个 
规则 的 支持 度 实际 上 只 需要 计算 {尿布 ,啤酒 } 的 支持 度 ， 即 它们 交集 的 
支持 度 。 

按照 4.1.2 关联 规则 挖掘 问题 划分 的 两 个 子 问题 ， 分 别 对 频繁 项 集 
产生 和 强 关联 规则 产生 两 个 问题 进行 分 析 。 

案例 思考 : 顾客 购买 商品 的 数据 库 表 如 表 4-2 所 示 ， 该 表 是 顾客 购 


买 记录 的 数据 库 DD, 包含 (__) 个 事务 ,项 集 伍 (_  _  )。 
考虑 关联 规则 : {网 球拍 } 一 {网 球 }， 事 务 1,2,3,4.6 包含 网 球拍 ， 事 务 
1,2,5,6 同时 包含 网 球拍 和 网 球 ， 支 持 度 Support= ( )， 置 信 


度 Confident= ( )。 若 给 定 最 小 支持 度 a = 0.5， 最 小 置信 度 
有 = 0.8， 关 联 规则 { 网 球拍 } 一 { 网 球 } ( 是 或 否 _) 有 趣 的 ， 购 买 网 
球拍 和 购买 网 球 之 间 ( 是 或 否 ) 存在 关联 。 





表 4-2 顾客 购买 商品 的 数据 库 表 





4.2.2 ”频繁 项 集 产 生 


发 现 频繁 项 集 是 指 发 现 所 有 的 频繁 项 集 ， 是 形成 关联 规则 的 基础 。 
通过 用 户 给 定 的 最 小 支持 度 Minsupport， 寻 找 所 有 支持 度 大 于 或 等 于 
Minsupport 的 频繁 项 集 。 如 何 迅速 且 高 效 地 发 现 所 有 频繁 项 集 ， 是 关联 
规则 挖掘 的 核心 问题 ， 也 是 衡量 关联 规则 挖掘 算法 效率 的 重要 标准 。 

频繁 项 集 产生 的 方法 有 很 多 ， 其 中 格 结构 (Lattice Structure) 常常 
被 用 来 枚 举 所 有 可 能 的 项 集 。 

图 4-1 显示 了 三 {a,b,c,d,e} 的 项 集 格 。 一 般 来 说 ， 一 个 包含 个 项 
的 数据 集 可 能 产生 2 和 1 个 频繁 项 集 ， 不 包括 空 集 在 内 。 由 于 许多 实际 应 
用 中 上 的 值 可 能 非常 大 ， 需 要 探查 的 项 集 搜索 空间 可 能 是 指数 规模 的 。 

寻找 频繁 项 集 的 最 基本 的 方式 是 计算 格 结构 内 逐个 候选 项 集 的 支 
持 度 。 这 种 方法 需要 依次 将 候选 项 集 与 事务 进行 逐个 类 比 。 图 4-1 所 示 
为 项 集 的 格 。 
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4-1 项 集 的 格 


依据 的 规则 为 ， 假 设 候选 项 集 存 在 于 某 个 事务 中 , 那么 候选 项 集 的 
支持 度 计数 将 增加 。 例 如， 从 表 4-1 可 以 看 出 , 项 集 {面包 ,尿布 } 出 现在 
事务 2、4 和 5 里 ， 那 么 支持 度 计 数 即 为 3 次 ， 但 是 这 个 方式 的 计算 较 
为 复杂 ， 需 要 进行 O(NMw) 次 比较 (其 中 N 是 事务 数 ，M=2 和 -1 是 候选 
项 集 数 ， 而 w 是 事务 的 最 大 宽度 )， 对 硬件 的 需要 较 大 。 

因此 ， 为 降低 产生 频繁 项 集 的 计数 复杂 度 ， 从 变量 参数 层面 ， 有 两 
种 方法 ， 一 种 是 减少 候选 项 集 的 数目 M， 另 一 种 是 减少 比价 次 数 。 

下 面 讨论 如 何 依据 太 频 繁 项 目 集 生 成 〈E+1) -频繁 项 目 集 。 因 此 首 
先 要 做 的 是 找 出 1- 频 繁 项 目 集 , 这 个 很 容易 得 到 , 只 要 循环 扫描 一 次 事 
务 集合 , 统计 出 项 目 集合 中 每 个 元 素 的 支持 度 , 然后 根据 设 定 的 支持 度 
闵 值 进行 第 选 ， 即 可 得 到 1- 频 繁 项 目 集 。 

那么 如 何 通过 太 频 繁 项 目 集 生成 (Kk+1) -频繁 项 目 集 呢 ? 

假设 某 个 项 目 集 s={s,.s,,….s,} 是 频繁 项 目 集 ， 那 么 它 的 (n-1) 非 空 
子 集 {5 505 1) {8.52 ,5.2.5s} {52,53, ,5,} 必定 都 是 频繁 项 目 集 ， 
通过 观察 ， 任 何 一 个 含有 n 个 元 素 的 集合 4={a,.a,.… .a,}， 它 的 (n-1) 
非 空子 集 必 须 包 含 tw,o,… .a , oa， 和 ta: :oa 两 项 , 对 比 这 两 
个 子 集 可 以 发 现 ， 它 们 的 前 (n-2) 项 是 相同 的 ， 它 们 的 并 集 就 是 集合 4。 
对 于 2- 频 繁 项 目 集 , 它 的 所 有 1 非 空子 集 也 必定 是 频繁 项 目 集 , 那么 根 
据 上 面 的 性 质 ， 对 于 2- 频 繁 项 目 集中 的 任 一 个 ， 在 1- 频 繁 项 目 集中 必 
定 存 在 两 个 集合 的 并 集 与 它 相 同 。 因此 , 在 所 有 的 1- 频 繁 项 目 集中 找 出 
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只 有 最 后 一 项 不 同 的 集合 , 将 其 合并 , 即 可 得 到 所 有 的 包含 两 个 元 素 的 
项 目 集 , 得 到 的 这 些 包含 两 个 元 素 的 项 目 集 不 一 定 都 是 频繁 项 目 集 ， 所 
以 需要 进行 剪 枝 。 剪 枝 的 办 法 是 看 它 的 所 有 1 非 空 子 集 是 否 在 1- 频 繁 项 
目 集中 , 如 果 存 在 1 非 空 子 集 不 在 1- 频 繁 项 目 集 中 , 则 将 该 2 项 目 集 易 
除 。 经 过 该 步骤 之 后 ， 剩 下 的 则 全 是 频繁 项 目 集 ， 即 2- 频 繁 项 目 集 。 依 
此 类 推 ， 可 以 生成 3- 频 繁 项 目 集 。 直 至 生成 所 有 的 频繁 项 目 集 。 

关联 规则 挖掘 所 花费 的 时 间 主 要 是 在 生成 频繁 项 集 上 , 因为 找 出 的 
频繁 项 集 往往 不 会 很 多 ， 利 用 频繁 项 集 生成 规则 也 就 不 会 花 太 多 的 时 
间 ， 而 生成 频繁 项 集 需要 测试 很 多 的 备 选项 集 ， 如 果 不 加 优化 ， 所 需 的 
时 间 是 O(2^N)。 


4.2.3” 强 关联 规则 


生成 关联 规则 是 指 通过 用 户 给 定 的 最 小 可 信 度 , 在 每 个 最 大 频繁 项 
集中 寻找 可 信 度 不 小 于 Minconfidence 的 关联 规则 。 

得 到 频繁 项 目 集 之 后 , 则 需要 从 频繁 项 目 集中 找 出 符合 条 件 的 关联 
规则 。 最 简单 的 办 法 是 : 遍历 所 有 的 频繁 项 目 集 ， 然 后 从 每 个 项 目 集中 
依次 取 1、2、…k 个 元 素 作为 后 件 ， 该 项 目 集 中 的 其 他 元 素 作为 前 件 ， 
计算 该 规则 的 置信 度 进行 筛选 即 可 。 这 样 的 穷 举 效率 显然 很 低 。 假 如 对 
于 一 个 频繁 项 目 集 f， 可 以 生成 下 面 这 样 的 关联 规则 : 

dd 

那么 这 条 规则 的 置信 度 = /7.,,,v Cr - 8) -根据 这 个 置信 和 度 计算 公 
式 可 知 ， 对 于 一 个 频繁 项 目 集 /.,,,, 是 不 变 的 ， 而 假设 该 规则 是 强 关联 
规则 ， 则 (7 - se..J~ 8 ,也 是 强 关 联 规则 ， 其 中 p.,, 是 B 的 子 集 ， 因 为 
(了 -Ps) .ws 肯定 小 于 (7 - 8).。,。。 即 给 定 一 个 频繁 项 目 集 f， 如 果 一 条 
强 关联 规则 的 后 件 为 8B， 那么 以 B 的 非 空 子 集 为 后 件 的 关联 规则 都 是 强 
关联 规则 。 所 以 可 以 先生 成 所 有 的 1- 后 件 ( 后 件 只 有 一 项 ) 强 关 联 规则 ， 
然后 再 生成 2- 后 件 强 关联 规则 , 依 此 类 推 ,直至 生成 所 有 的 强 关 联 规则 。 


4.2.4 ”关联 规则 评价 标准 


本 节 主 要 介绍 关联 规则 评价 标准 ， 即 评价 关联 模式 质量 的 标准 ， 可 
以 实现 从 量化 的 角度 客观 分 析 关 联 分 析 算法 的 优越 性 。 

例如 图 4-1 所 示 ， 关 联 分 析 算 法 过 程 中 会 产生 非常 大 的 数据 量 ， 然 
而 其 中 蕴含 的 信息 量 少 。 在 确定 的 支持 度 和 置信 度 阔 值 下 ,很 少 的 数据 
集 便 会 产生 千 万 级 的 数据 量 ， 这 在 现在 各 行 各 业 都 呈现 大 数据 的 情况 
下 ， 很 难保 证 算法 的 实时 性 。 如 何 评价 这 些 数据 ， 选 出 有 用 的 信息 ， 是 
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一 件 较为 坏 手 的 问题 , 建立 一 组 广泛 接受 的 评价 关联 模式 质量 的 标准 显 

在 某 些 特定 情况 下 , 仅 赁 支持 度 和 置信 度 来 衡量 一 条 规则 ， 是 完 
不 够 的 ， 对 于 数据 的 筛选 力度 也 不 足 。 因 此 ， 需 要 介绍 更 多 的 判断 强 关 
联 规则 的 评价 标准 ， 来 满足 实际 需求 。 

支持 度 和 置信 度 并 不 能 够 成 功 滤 掉 那 些 我 们 不 感 兴趣 的 规则 , 因此 
我 们 需要 一 些 新 的 评价 标准 。 下 面 介 绍 6 种 评价 标准 , 它们 分 别 是 相关 
性 系数 lift、 卡 方 系数 、 全 置信 度 、 最 大 自信 度 、Kulc 和 cosine 距离 。 

1. 相关 性 系数 lift 

引入 正 相 关 和 负 相 关 的 机 制 ， 对 于 不 是 正 相 关 的 商品 规则 ， 可 以 用 相 
关 性 系数 lift 过 滤 掉 。 对 于 规则 A 一 B 或 者 B 一 A，1ift(A,B)=P(AMB)/ 
(P(A)*P(B))， 如果 lift(A.B)>1 表示 A、B 呈正 相关 , lift(A,B)<1 表示 A、 
B 呈 负 相关 ，1lift(A,B)=1 表示 A、B 不 相关 (独立 ) 。 实 际 运 用 中 ， 正 
相关 和 负 相 关 都 是 我 们 需要 关注 的 , 而 独立 往往 是 我 们 不 需要 的 ,两 个 
商品 都 没有 相互 影响 也 就 不 是 强 规则 ，1ift(A,B) 等 于 1 的 情形 也 很 少 ， 
一 般 只 要 接近 于 1， 便 认为 是 独立 了 。 

2. 卡 方 系数 


卡 方 分 布 是 数理 统计 中 的 一 个 重要 分 布 , 利用 卡 方 系数 我 们 可 以 确 
定 两 个 变量 是 否 相 关 。 卡 方 系数 的 定义 : 


将 (observed— expected)’ 
二 “等 bp 下 OO 
expected 
其 中 ，observed 表示 数据 的 实际 值 ，expected 表示 期 望 值 。 卡 方 系 


数 需要 查 表 才 能 确定 值 的 意义 , 这 里 需要 一 定 的 概率 统计 知识 。 如 果 觉 
得 不 好 理解 ， 可 以 用 其 他 的 评价 标准 。 


3. 全 置信 和 度 all_confidence 

全 置信 和 度 的 定义 如 下 : 

all confidence(A,B)=P(A NB)/ max{P(A),P(B)}=min{P(B|A),P(AIB)} 

=min{confidence(A—B),confidence(B— A)} 

4. 最 大 置信 和 度 max_confidence 

最 大 置信 度 则 与 全 置信 和 度 相反 , 求 的 不 是 最 小 的 支持 度 而 是 最 大 的 支 
持 度 ，max_confidence(A,B)=max{confidence(A 一 B),confidence(B 一 A)}， 
不 过 最 大 置信 度 不 太 实用 。 
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5. Kulc 


Kulc 系数 本 质 上 是 对 两 个 置信 和 度 做 一 个 平均 处 理 ， 公 式 为 : 
kulc(A,B)=(confidence(A 一 B)+confidence(B 一 A))/2 


6. cosine 距离 


cosine(A,B)=P(A NM B)/sqrt(P(A)*P(B))=sqrt(P(AIB)*P(B|A)) 
= sqrt(confidence(A— B)*confidence(B— A)) 


4.3 ”关联 规则 的 Apriori 算法 


关联 规则 最 为 经 典 的 算法 是 Apriori 算法 。 本 节 主 要 介绍 关联 规则 
的 Apriori 算法 。 

Apriori 算法 是 以 概率 为 基础 的 、 挖 掘 布 尔 型 关联 规则 频繁 项 集 的 
经 典 算法 ,最 早 由 R.Agrawal 和 R.Srikant 于 1994 年 提出 的 原创 性 算法 。 
由 于 算法 使 用 频繁 项 集 性 质 的 先 验 知识 , 因此 取 名 Apriori( 先 验 的 ) 算法 。 
该 算法 通过 先 产 生 候 选项 集 , 再 通过 原 数 据 进 行 过 滤 的 迭代 方法 来 找 出 数 
据 库 中 各 项 目的 关系 ， 基 于 最 小 支持 度 和 最 小 置信 度 来 形成 关联 规则 。 


4.3.1 知识 回顾 


由 4.2 节 所 知 ， 关 联 规则 的 挖掘 过 程 一 般 可 以 分 为 两 个 步 又: 〈1) 找 
出 所 有 频繁 项 集 ;〈2) 由 频繁 项 集 产生 强 关 联 规则 。 数 据 挖掘 方法 的 效 
率 和 性 能 在 很 大 程度 上 由 第 一 个 步骤 决定 。 

子 问 题 〈1) 是 近年 来 关联 规则 挖掘 算法 研究 的 重点 。 比 较 流 行 的 
方法 是 基于 Agrawal 等 人 建立 的 项 目 集 格 空间 理论 。 这 个 理论 的 核心 
为 : 如 果 某 个 项 集 是 频繁 的 ， 那 么 它 的 所 有 子 集 也 是 频繁 的 。 更 常用 的 
是 它 的 逆 和 否 命 题 ,， 即 如 果 一 个 项 集 是 非 频繁 的 ,那么 它 的 所 有 超 集 也 是 
非 频繁 的 。 

对 于 子 问题 (2)， 在 每 个 频繁 大 项 集中 逐一 匹配 规则 并 进行 
Confidence( 石 一 万) 三 minconfidence 的 测试 是 每 个 算法 必须 要 考虑 的 问 
题 ， 因 此 这 部 分 工作 相对 比较 成 熟 。 这 里 主要 对 子 问题 (1) 找 出 所 有 
频繁 项 集 的 方法 进行 研究 。 

为 了 提高 频繁 项 集 逐 层 产生 的 效率 并 有 效 地 压缩 搜索 空间 , 学 者 提 
出 了 Apriori 性 质 ， 它 是 指 频繁 项 集 的 所 有 非 空 子 集 也 必须 是 频繁 的 。 
因此 ， 根 据 此 性 质 ， 如 果 项 集 I 不 满足 最 小 支持 度 阔 值 min sup， 则 I 
不 是 频繁 的 ， 即 PID<min_sup 。 
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在 搜索 频繁 项 集 时 ，Apriori 算法 是 一 种 常用 的 方法 。Apriori 使 用 
逐 层 搜索 的 迭代 方法 ， 即 项 集 用 于 探索 (Kk+1) 项 集 。 

首先 ， 通 过 扫描 数据 库 ， 累 积 每 个 项 的 计数 ， 并 收集 满足 最 小 支持 
度 的 项 ， 找 出 频繁 1 项 集 的 集合 ， 该 集合 记 作 L1,， 然 后 Li 用 于 找 频繁 2 
项 集 的 集合 L,，L, 用 于 找 频繁 3 项 集 的 集合 L3， 如 此 下 去 ， 直 到 不 能 再 
找到 频繁 上 项 集 。 这 里 要 注意 的 是 , 找 每 个 Li 时 需要 一 次 数据 库 全 扫描 。 


4.3.2 ”Apriori 算法 的 核心 思想 


Apriori 算法 的 核心 思想 主要 体现 在 两 个 方面 ， 即 其 两 个 关键 步 又， 
具体 如 下 。 


1. 连接 步 


为 了 找到 频繁 上 项 集 一 一 Li:， 首 先 将 Zri 与 自身 连接 ， 产 生 候选 上 
项 集 一 一 Ck，Lic 的 元 素 是 可 连接 的 。 


2. 剪 枝 步 


候选 项 集 Ck 是 天 的 超 集 ， 因 此 ，Cx 成 员 既 可 是 频繁 项 集 ， 也 可 
不 是 频繁 的 ， 但 所 有 的 频繁 项 集 都 包括 在 Ck 中 。 扫 描 数 据 库 ， 确 定 Cx 
中 每 一 个 候选 的 计数 ， 从 而 确定 Li( 计 数值 不 小 于 最 小 支持 度 计数 的 所 
有 候选 是 频繁 的 ， 从 而 属于 Li)。 然 而 ，Cx 可 能 很 大 ， 这 样 所 涉及 的 计 
算 量 就 很 大 。 为 压缩 Ct:， 使 用 Apriori 性 质 : 任何 非 频 繁 的 (1) 项 集 都 
不 可 能 是 频繁 上 项 集 的 子 集 。 因此 ， 如果 一 个 候选 项 集 的 (-1) 项 集 不 
在 Lk 中 ， 则 该 候选 项 也 不 可 能 是 频繁 的 ， 从 而 可 以 由 Ci 中 删除 。 这 种 
子 集 测试 可 以 使 用 所 有 频繁 项 集 的 散 列 树 快速 完成 。 


4.3.3 Apriori 算法 描述 
算法 4-1 Apriori 一 一 发 现 频繁 项 目 集 


(1) L1= {large 1-itemsets}; 
(2) “FOR (k=2; Lk-1#®; k++) DO BEGIN 


(3) Ck=apriori-gen(Lk-1); /1Ck 是 k 个 元 素 的 候选 集 

(4) FOR all transactions teD DO BEGIN 

(5) Ct=subset(Ck,t); /ct 是 所 有 t 包 含 的 候选 集 元 素 
(6) FOR all candidates ce Ct DO 

(7) c.count++; 

(8) END 

(9) Lk={ce Ck |c.count>minsup_count} 

(10) END 


(11) Answer= wkLk; 


算法 4-1 中 调用 了 apriori-gen(Lk1)， 是 为 了 通过 k-1 频繁 项 集 产 生 
天 候选 集 。 算 法 4-2 描述 了 apriori-gen 过 程 。 
算法 4-2 apriori-gen(Le1) 一 一 候选 集 产生 


(1) FOR allitemset pe Lk-1 DO BEGIN 
(2) FOR all itemset qe Lk-1 DO BEGIN 


(3) IF p.item1=q.item1, ..., p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1 
THEN BEGIN 

(4) c= pwq; // 把 q 的 第 k-1 个 元 素 连 到 p 后 

(5) IF has_infrequent_subset(c, Lk-1) THEN 

(6) delete c; /删除 含有 非 频繁 项 目 子 集 的 候选 元 素 

(7) ELSE add c to Ck; 

(8) END 


(9) Return Ck; 


算法 4-2 中 调用 了 has_infrequent_subset(c, Lx1)， 是 为 了 判断 c 是 
否 需 要 加 入 到 k 候选 集中 。 依 据 Agrarwal 的 项 目 集 格 空间 理论 ， 含 有 
非 频 繁 项 目 子 集 的 元 素 不 可 能 是 频繁 项 目 集 ， 因此 应 该 裁减 掉 ， 以 提高 
效率 。 例 如 ， 如 果 Ls={AB,AD,AC,BD}， 对 于 新 产生 的 元 素 ABC 不 需 
要 加 入 到 Cs 中， 因为 它 的 子 集 BC 不 在 六 中 ;而 ABD 应 该 加 入 到 Cs 
中 ， 因 为 它 的 所 有 2- 项 子 集 都 在 L, 中 。 算 法 4-3 描述 了 这 个 过 程 。 


算法 4-3 has_infrequent_subset(c, Lk-1) 一 一 判断 候选 集 的 元 素 


(1) FOR all (k-1)-subset s of c DO 
(2) IF seLk-1 THEN 

(3) Return TURE; 

(4) Return FALSE; 


Apriori 算法 是 通过 项 目 集 元 素数 目 不 断 增长 来 逐步 完成 搜索 频繁 
项 目 集 的 。 首 先 产 生 1- 频 繁 项 集 L1,， 然 后 是 2- 频 繁 项 集 L,， 直 到 不 再 
能 扩展 频繁 项 集 的 元 素数 目 而 算法 停止 。 在 第 次 循环 中 ， 过程 先 产 生 
大 候选 项 集 的 集合 Ck， 然 后 通过 扫描 数据 库 生 成 支持 度 并 测试 产生 大 
频繁 项 集 Li。 

下 面 给 出 一 个 样本 事务 数据 库 ( 见 表 4-3)， 并 对 它 实 施 Apriori 算法 。 


表 4-3 样本 事务 数据 库 











TID ltemset 
1 A, B, C, D 
4 B,C, EE 
3 A, B, C, E 
i B, D, E 
5 A, B, C, D 
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对 表 4-3 所 示 的 事务 数据 库 实 施 Apriori 算法 的 执行 过 程 如 下 《〈 设 
minsup_count 二 2)。 

(1) 7: 生成 : 生成 候选 集 ， 并 通过 扫描 数据 库 得 到 它们 的 支持 数 ， 
Ci={(A,3), (B,5), (C,4), (D,3), (E,3)}; 挑选 minsup_count 宇 2 的 项 目 集 组 
成 1- 频 繁 项 目 集 L1={A,B,C,D,E}。 

(2) LI, 生成 : 由 工 ! 生成 2- 候 选集 ， 并 通过 扫描 数据 库 得 到 它们 的 
支持 数 Cs={(AB,3),(AC,3),(AD,2), (AE,1), (BC,4), (BD,3), (BE,3), 
(CD,2), (CE,2), (DE,1)}; 挑选 minsup_count 宇 2 的 项 目 集 组 成 2- 频 繁 项 
目 集 L,={AB, AC., AD, BC., BD, BE, CD, CE}。 

(3) Ls 生成 : 由 工 ,生成 3- 候 选集 ， 并 通过 扫描 数据 库 得 到 它们 的 
支持 数 Cs={(ABC,3)，(ABD,2)，(ACD,2)，(BCD,2)，(BCE,2)} ; 挑选 
minsup_count 宇 2 的 项 目 集 组 成 3- 频 繁 项 目 集 L3={ABC, ABD, ACD,，, 
BCD, BCE}. 

(4) Ls 生成 : 由 工 生 成 4- 候 选集 ， 并 通过 扫描 数据 库 得 到 它们 的 
支持 数 Cs={(ABCD,2)}; 挑选 minsup_count 宇 2 的 项 目 集 组 成 4- 频 繁 项 
目 集 Ls={ABCD}。 

(5) Ls 生成: 由 工 生 成 5- 候 选集 Cs=G，ZLs=O， 算 法 停止 。 

于 是 最 大 的 频繁 项 目 集 为 {ABCD, BCE}。 


4.3.4 Apriori 算法 评价 


基于 频繁 项 集 的 Apriori 算法 采用 了 逐 层 搜索 的 迭代 的 方法 ， 算 法 
简单 明了 ,没有 复杂 的 理论 推导 ， 也 易于 实现 。 但 其 有 一 些 难 以 克服 的 
缺点 ， 具 体 如 下 。 

(1) 对 数据 库 的 扫描 次 数 过 多 。 在 Apriori 算法 的 描述 中 ， 我 们 知 
道 , 每 生成 一 个 候选 项 集 ， 都 要 对 数据 库 进行 一 次 全 面 的 搜索 。 如 果 要 
生成 最 大 长 度 为 N 的 频繁 项 集 ， 那 么 就 要 对 数据 库 进行 N 次 扫描 。 当 
数据 库 中 存放 大 量 的 事务 数据 时 ， 在 有 限 的 内 存 容量 下 ， 系 统 IO 负载 
相当 大 ， 每 次 扫描 数据 库 的 时 间 就 会 很 长 ， 这 样 其 效率 就 非常 低 。 

(2) Apriori 算法 会 产生 大 量 的 中 间 项 集 。Apriori_ gen 函数 是 用 
Le 产生 候选 Ce:， 所 产生 的 Ck 由 多 个 上 项 集 组 成 。 显然, 大 越 大 所 产生 
的 候选 大 项 集 的 数量 呈 几 何 级 数 增加 。 如 频繁 1 项 集 的 数量 为 10 个 ， 
长 度 为 2 的 候选 项 集 的 数量 将 达到 Sx10"7 个 ,如 果 要 生成 一 个 更 长 规则 ， 
其 需要 产生 的 候选 项 集 的 数量 将 是 难以 想象 的 ， 如 同 天 文 数字 。 

(3) 采用 唯一 支持 度 , 没有 将 各 个 属性 重要 程度 的 不 同 考虑 进去 。 
在 现实 生活 中 , 一 些 事务 的 发 生 率 非常 频繁 , 而 有 些 事务 的 发 生 率 则 很 
稀少 , 这 样 对 挖掘 来 说 就 存在 一 个 问题 : 如 果 最 小 支持 度 阔 值 定 得 较 高 ， 
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虽然 加 快 了 速度 ， 但 是 覆盖 的 数据 较 少 ， 有 意义 的 规则 可 能 不 被 发 现 ; 
如 果 最 小 支持 度 阔 值 定 得 过 低 , 那么 大 量 的 无 实际 意义 的 规则 将 充斥 在 
整个 挖掘 过 程 中 ,大 大 降低 了 挖掘 效率 和 规则 的 可 用 性 。 这 都 将 影响 其 
至 误导 决策 的 制定 。 

(4) 算法 的 适应 面 窗 。 该 算法 只 考虑 了 单 维 布尔 关联 规则 的 挖掘 ， 
但 在 实际 应 用 中 ， 可 能 出 现 多 维 的 、 数 量 的 、 多 层 的 关联 规则 。 这 时 ， 
该 算法 就 不 再 适用 ， 需 要 改进 ， 甚 至 需要 重新 设计 算法 。 


4.3.5 ”Apriori 算法 改进 


鉴于 Apriori 算法 需要 多 次 扫描 数据 库 ， 在 实际 应 用 中 ， 运 行 效率 
往往 不 能 令 人 感到 满意 ， 尤 其 是 当 数 据 库 较 大 时 更 为 棘手 。 为 了 提高 
Apriori 算法 的 性 能 和 运行 效率 ， 许 多 专家 对 Apriori 算法 的 改进 展开 了 
研究 ， 形 成 了 许多 改进 和 扩展 Apriori 的 方法 。 

改进 算法 的 途径 包括 以 下 几 个 方面 。 

(1) 通过 减少 扫描 数据 库 的 次 数 改 进 IO 的 性 能 。 

(2) 改进 产生 频繁 项 集 的 计算 性 能 。 

(3) 寻找 有 效 的 并 行 关联 规则 算法 。 

(4) 引入 抽样 技术 改进 生成 频繁 项 集 的 WO 和 计算 性 能 。 

(5) 扩展 应 用 领域 。 如 展开 定量 关联 规则 、 泛 化 关联 规则 及 周期 
性 的 关联 规则 的 研究 。 

改进 算法 具体 简要 介绍 如 下 。 


1. 基于 抽样 技术 


选取 给 定数 据 库 D 的 随机 样本 S， 然 后 在 S 中 搜索 频繁 项 目 集 。 样 
本 S 的 大 小 要 满足 只 需要 扫描 一 次 S 中 的 事务 ， 便 可 以 搜索 S 中 的 频 
繁 项 目 集 。 由 于 该 算法 搜索 S 中 而 不 是 D 中 的 频繁 项 目 集 ， 可 能 会 丢 
失 一 些 全 局 频繁 项 目 集 。 为 了 减少 这 种 可 能 性 , 该 算法 使 用 比 最 小 支持 
度 低 的 支持 度 冰 值 来 找 出 样本 S 中 的 频繁 项 目 集 ( 记 作 LS)。 然 后 , 计 
算 LS 中 每 个 项 目 集 的 支持 度 。 有 一 种 机 制 可 以 用 来 确定 是 否 所 有 的 频 
繁 项 目 集 都 包含 在 LS 中 。 如 果 LS 包含 了 D 中 的 所 有 频繁 项 目 集 ， 则 
只 需要 扫描 一 次 D， 和 否则 ， 需 要 第 二 次 扫描 D， 以 找 出 在 第 一 次 扫描 时 
遗漏 的 频繁 项 目 集 。 


2. 基于 动态 的 项 目 集 计 数 


该 算法 将 数据 库 分 成 几 块 ， 对 开始 点 进行 标记 ， 重 复 扫描 数据 库 。 
与 Apriori 算法 不 同 ， 该 算法 能 在 任何 开始 点 增加 新 的 候选 项 目 集 ， 在 
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每 个 开始 点 , 该 算法 估计 所 有 项 目 集 的 支持 度 , 如 果 它 的 所 有 子 集 被 估 
计 为 是 频繁 的 , 增加 该 项 目 集 到 候选 项 目 集中 。 如 果 该 算法 在 第 一 次 扫 
描 期 间 增 加 了 所 有 的 频繁 项 目 集 和 人 负 边界 到 候选 项 目 集中 , 它 会 在 第 二 
次 扫描 期 间 精确 计算 每 个 项 目 集 的 支持 度 。 


3. 基于 划分 的 方法 


PARTITION 算法 首先 将 事务 数据 库 分 割 成 若干 个 互 不 重合 的 子 数 
据 库 ， 分 别 进行 频繁 项 集 挖掘 : 最 后 将 所 有 的 局 部 频繁 项 集合 并 作为 整 
个 交易 库 的 候选 项 集 。 扫 描 一 遍 原始 数据 库 计 算 候 选集 的 支持 度 。 算 法 
生成 整个 交易 数据 库 的 频繁 项 集 只 需要 扫描 数据 库 两 次 。 


4. 事务 压缩 


这 是 算法 Apriori-Tid 的 基本 思想 : 减少 用 于 未 来 扫描 的 事务 集 的 大 
小 。 如 果 在 数据 库 遍 历 中 将 一 些 不 包含 k- 频 繁 项 集 的 事务 删除 ， 那么 在 下 
一 次 循环 中 就 可 以 减少 扫描 的 事务 量 ， 而 不 会 影响 候选 集 的 支持 度 阐 值 。 


4.4 关联 规则 的 FP-growth 算法 


上 面 介 绍 了 关联 规则 挖掘 的 一 些 基 本 概念 和 经 典 的 Apriori 算法 ， 
在 关联 分 析 中 ，Apriori 算法 是 常用 的 频繁 项 集 的 挖掘 方法 ， 利 用 频繁 
集 的 两 个 特性 ， 过 滤 了 很 多 无 关 的 集合 ， 效 率 提高 不 少 。 

如 上 节 所 讲 ，Apriori 算法 是 一 个 候选 消除 算法 ， 每 一 次 消除 都 需 
要 扫描 一 次 所 有 数据 记录 ， 当 数据 集 特别 大 时 ， 需 要 不 断 扫描 数据 集 ， 
造成 运行 效率 很 低 。 

下 面 介 绍 一 个 新 的 关联 规则 分 析 方 法 :FP-growth 算法 (FP, Frequent 
Pattern， 频 繁 模式 )。FP-growth 算法 基于 Apriori 构建 ， 但 采用 了 不 同 
的 数据 结构 减少 扫描 次 数 ， 大 大 加 快 了 算法 速度 。FP-growth 算法 只 需 
要 对 数据 库 进行 两 次 扫描 ， 而 Apriori 算法 对 于 每 个 潜在 的 频繁 项 集 都 
会 扫描 整个 数据 集 从 而 判定 其 是 否 频繁 ,， 因此 FP-growth 算法 的 速度 要 
比 Apriori 算法 快 。 

FP-growth 算法 通过 构造 一 个 树 结构 FP-tree 来 映射 数据 集中 的 事 
务 , 再 根据 这 棵 树 找 出 频繁 项 集 ， 只 需要 对 数据 集 进行 两 次 扫描 ， 就 可 
以 更 高 效 地 发 现 频 繁 项 集 。 

但 FP-growth 算法 实现 起 来 比较 困难 ,在 某 些 数 据 集 上 性 能 会 下 降 。 
适用 于 离散 型 的 数据 类 型 。 

FP-growth 算法 发 现 频繁 项 集 的 基本 步骤 如 下 。 





(1) 构建 FP 树 。 
(2) 从 FP 树 中 挖掘 频繁 项 集 。 
下 面具 体 分 析 一 下 这 两 个 步骤 。 


4.4.1 构建 FP 树 


FP-growth 算法 将 数据 集 的 特点 以 一 种 树 结构 的 方式 存储 ， 称 为 
FP-tree。FP-tree 是 一 种 用 于 编码 数据 集 的 有 效 方式 ， 树 结构 定义 如 下 : 


public class FpNode { 


String idName; llid 号 

List<FpNode> children; // 子 节点 

FpNode parent; // 父 节点 

FpNode next; /下 一 个 id 号 相同 的 节点 
long count; 1/ 出现 次 数 


} 


树 的 每 一 个 节点 FpNode 代表 一 个 项 , 项 的 内 容 包 括 id 号 idName、 
子 节点 children、 父 节点 parent、 下 一 个 id 号 相同 的 节点 next， 以 及 该 
项 的 出 现 次 数 count。 

为 更 好 地 理解 FP-tree 的 构造 方法 ， 同 样 以 表 4-1 为 例 ，FP-tree 的 
构造 过 程 演示 如 下 〔 设 最 小 支持 度 minSupport 为 3)。 

第 一 步 : 扫描 整个 数据 库 ， 对 每 项 记录 按照 出 现 次 数 ( 频 数 ) 进行 
递减 排序 ,按照 支持 度 找 出 频繁 项 的 列表 LL。 例如 , 扫描 表 4-1 数据 集 ， 
扫描 得 商品 频数 : 面包 -4， 牛 奶 -4， 尿 布 -4， 啤 酒 -3， 可 乐 -2， 鸡 蛋 -1， 
由 于 鸡蛋 和 可 乐 出 现 的 次 数 分 别 是 1 和 2， 小 于 minSupport， 因 此 不 是 
频繁 项 集 ， 直 接 删除 。 

按照 步骤 一 ， 生 成 一 级 频繁 项 集 ， 如 表 4-4 所 示 。 


表 4-4 一 级 频繁 项 集 L 














ltem Count 
面包 4 
牛奶 4 
尿布 4 
啤酒 3 


第 二 步 : 

(1) 再 次 扫描 数据 库 〈 也 是 最 后 一 次 扫描 数据 库 )， 对 于 每 一 条 交 
易 记 录 ， 按 照 步骤 一 找 出 频繁 项 的 列表 工 进行 排序 。 

例如 ， 对 于 表 4-1， 去 掉 “ 可 乐 ” 和 “鸡蛋 ”项 ， 按 照 表 4-4 的 顺 
序 进行 重新 排序 之 后 ， 表 格 如 表 4-5 所 示 。 





表 4-5 重新 排序 表 

项 和 集 
{面包 ,牛奶 } 
{面包 ,尿布 ,啤酒 } 
{牛奶 ,尿布 ,啤酒 } 
{面包 ,牛奶 ,尿布 ,啤酒 } 
{面包 ,牛奶 ,尿布 } 


(2) 从 数据 库 中 取出 事务 , 然后 将 每 个 项 逐个 添加 到 FP-tree 的 分 
枝 上 去 ， 由 每 个 事务 不 断 构建 FP-tree。FP-tree 的 根 节点 标记 为 null。 
例如 : 
表 4-5 中 第 一 条 记录 : {面包 ,牛奶 }, 在 根 节点 null 下 面 新 建 一 个 节 
点 ，idName 为 {牛奶 }， 将 其 插入 到 根 节 点 下 ， 并 设置 count 为 1， 然 后 
新 建 一 个 {面包 } 节 点 ,插入 到 {牛奶 } 节 点 下 面 , 并 用 直线 线段 连接 起 来 ， 
插入 后 如 图 4-2 所 示 。 











ee 





图 4-2 第 一 条 记录 
表 4-5 中 第 二 条 记录 : {面包 ,尿布 ,啤酒 } 由 于 根 节点 下 已 经 有 {面包 } 


节点 ,只 需要 在 面包 下 面 加 上 {尿布 ,啤酒 } 节 点 ,同时 面包 count 的 数量 
要 加 上 1。 插入 后 ， 第 一 ~ 第 二 条 记录 如 图 4-3 所 示 。 


NULL 





4-3 第 一 ~ 第 二 条 记录 
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同 理 ， 将 所 有 的 5 条 记录 按照 之 前 的 规律 依次 放 入 FP-tree 里 面 ， 
第 一 ~ 第 五 条 记录 都 插入 根 节点 之 后 ，FP-tree 如 图 4-4 所 示 。 





图 4-4 第 一 ~ 第 五 条 记录 


最 后 ， 还 需要 增加 一 个 表 头 〈Header Table)， 将 FP-tree 中 相同 项 
(item) 连接 起 来 ， 按 降序 排序 ， 最 后 得 到 完整 的 FP-growth 树 ， 如 
4-5 所 示 。 





表 头 














4-5 完整 FP-growth 树 


至 此 ， 整 个 FP-tree 就 构造 好 了 ， 下 面 分 析 第 二 个 步骤 ， 即 从 FP 
树 中 挖掘 频繁 项 集 。 


4.4.2 从 FP 树 中 挖掘 频繁 项 集 


利用 第 一 步 生成 的 FP-growth 树 ， 实 现 从 FP 树 中 挖掘 频繁 项 集 ， 
至 此 , 不 再 需要 原始 数据 集 了 。 挖掘 是 一 个 递归 的 过 程 ， 首 先 从 表 头 的 
最 后 一 个 项 开始 ， 如 图 4-5 所 示 ， 最 后 一 项 为 {啤酒 }。 

(1) 从 Header Table 的 最 下 面 的 Item 开始 , 构造 每 个 Item 的 条 件 
模式 基 (Conditional Pattern Base，CPB)。 

顺 着 Header Table 中 Item 的 链表 , 这 些 前 缀 路 径 就 是 该 Item 的 条 
件 模 式 基 (CPB)， 从 {啤酒} 开始， 顺 着 图 4-5 中 表 头 中 Item 的 链表 ， 
找 出 所 有 包含 {啤酒 } 的 前 缀 路径， 然后 找 出 每 个 {啤酒 } 节 点 的 分 支 ， 
分 别 为 {面包 ,牛奶 ,尿布 }:1， 其 中 计数 “1” 表 示 出 现 的 次 数 ， 即 1 次 。 
所 有 这 些 CPB 的 频繁 度 ( 计 数 ) 为 该 路 径 上 Item 的 频繁 度 。 如 包含 { 啤 
酒 } 的 其 中 一 条 路 径 是 {牛奶 ,尿布 }， 该 路 径 中 {啤酒 } 的 频繁 度 为 1。 

依次 ,为 剩 下 的 Item{ 尿 布 }、{ 牛 奶 }、{ 面 包 } 分 别 找 出 其 条 件 模式 
基 CPB， 如 表 4-6 所 示 。 


表 4-6 条 件 模式 基 





(2) 构造 条 件 FP-tree (Conditional FP-tree)。 

累加 每 个 CPB 上 的 Item 的 频繁 度 (计数 )， 过 滤 低 于 闵 值 的 Item， 
构建 FP-tree。 

如 {啤酒 } 的 CPB{ 面 包 , 牛 奶 ,尿布 }:1，{ 牛 奶 ,尿布 }:1，{ 面 包 , 尿 
布 }:1，{ 面 包 }:2，{ 牛 奶 }:2，{ 尿 布 }:-3， 阔 值 假设 为 3， 过 滤 掉 {面包 } 
和 {牛奶 }。 因 此 ，FP-tree 如 图 4-6 所 示 。 


0 


| 


尿布 : 3 


图 4-6 FP-tree 


(3) FP-growth: 递归 地 挖掘 每 个 条 件 FP-tree， 累 加 后 级 频繁 项 集 ， 
直到 找到 FP-tree 为 空 或 者 FP-tree 只 有 一 条 路 径 ( 只 有 一 条 路 径 的 情况 
下 ， 所 有 路 径 上 item 的 组 合 都 是 频繁 项 集 )。 可 以 证 明 (严谨 的 算法 和 
证 明 在 此 不 进行 叙述 )， 频 繁 项 集 即 不 重复 也 不 遗漏 。 

虽然 FP-growth 算法 的 平均 效率 远 高 于 Apriori 算法 ， 但 是 它 并 不 
能 保证 高 效率 , 它 的 效率 依赖 于 数据 集 。 当 数据 集中 的 频繁 项 集 没有 公 
共 项 时 , 所 有 的 项 集 都 挂 在 根 节点 上 , 不 能 实现 压缩 存储 , 而 且 FP-tree 
还 需要 其 他 的 开销 ， 需 要 存储 空间 更 大 。 使 用 FP-growth 算法 前 ， 首 先 
需要 对 数据 分 析 ， 再 决策 是 否 采用 FP-growth 算法 。 


4.5 ”实战 : 关联 规则 挖掘 实例 
4.5.1 ”关联 规则 挖掘 技术 在 国内 外 的 应 用 现状 


就 目前 而 言 , 关联 规则 挖掘 技术 已 经 被 广泛 应 用 在 西方 金融 行业 企 
业 中 ， 它 可 以 成 功 预 测 银行 客户 需求 。 一 旦 获得 了 这 些 信息 ， 银 行 就 可 
以 改善 自身 营销 策略 。 各 银行 在 自己 的 ATM 机 上 就 捆绑 了 顾客 可 能 感 
兴趣 的 本 行 产 品 信息 ， 供 使 用 本 行 ATM 机 的 用 户 了 解 。 同 时 ， 一 些 知 
名 的 电子 商务 站 点 也 从 强大 的 关联 规则 挖掘 中 受益 。 这些 电子 购物 网 站 
使 用 关联 规则 对 规则 进行 挖掘 ， 然 后 设置 用 户 有 意 要 一 起 购买 的 捆绑 
包 。 也 有 一 些 购物 网 站 使 用 它们 设置 相应 的 交叉 销售 ， 也 就 是 购买 某 种 
商品 的 顾客 会 看 到 相关 的 另外 一 种 商品 的 广告 。 

就 我 国 现状 而 言 ， 虽 然 已 逐步 意识 到 数据 的 重要 性 ， 但 “数据 海量 ， 
信息 缺乏 ”仍然 是 各 行 各 业 在 大 数据 方面 所 面临 的 重要 问题 。 尤 其 是 当前 
的 金融 行业 ， 对 于 大 数据 的 处 理 仅仅 停留 在 数据 库 中 数据 的 录入 、 查 询 、 
统计 等 输出 处 理 的 阶段 ， 如 何 有 效 地 挖掘 数据 中 的 关联 规则 、 对 数据 的 模 
式 和 特征 进行 分 析 、 对 商品 数据 的 时 序 变化 特征 等 这 些 有 用 的 信息 ， 用 数 
据 来 分 析 问 题 ， 洞 察 趋势 ， 还 没有 进入 深入 的 研究 与 实际 应 用 阶段 。 


4.5.2 ”关联 规则 应 用 实例 


给 定 一 个 事务 数据 库 ， 如 表 4-7 所 示 ， 采 用 Apriori 算法 生成 该 事 
务 数 据 库 的 关联 规则 。 设 置信 度 为 2/3。 

步骤 一 : 产生 频繁 项 集 。 

先 求 频繁 项 集 L1, 然后 逐步 分 别 求 出 频繁 项 集 Ze， 即 执行 apriori- 
gen(Lx)。 
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表 4-7 事务 数据 库 
































TID 项 目 列 表 
列 11,12,15 
1 12,14 

T3 LD.B 

T4 11, 12, 14 
T5 13,14 

T6 11,B 

起 11,12,13,15 
1 12, 13, 14 
T9 [2, 1B3,15 
T10 DB,I5 





(1) 第 1 次 迭代 ， 产 生 频 繁 1- 项 集 L1， 如 表 4-8 所 示 。 
表 4-8 Apriori 算法 第 1 次 迭代 


候选 
1- 项 集 C1 





说 明 ， 结果 由 三 表 组 成 。 
(2) 第 2 次 迭代 ， 产 生 频 繁 2- 项 集 Za， 如 表 4-9 所 示 。 


表 4-9 Apriori 算法 第 2 次 迭代 
© © @ 



































候选 候选 频繁 
2- 项 集 C。 ”2- 项 集 数 | S[%] 项 集 12 We || SI 

{11,.2} {11,2} 3 30 {1.2} 3 30 
TB)} TB)} 2 20 {1,.B} 2 20 
{1.14} {1.14} IE 10 {1,15} 2 20 
{1.15} 115} 2 20 {12,B} 4 40 
{2.3} {2.B} 4 40 {12,14} 3 30 
{2.14} {2.14} 3 30 {12,15} 3 30 
{12.15} {2.15} 3 30 {13,14} 2 20 
{3,14} {DB.14} 和 20 {13,15} 3 30 
{13.15} {3,15} 3 30 

{14, IS} 14,15 0 0 








说 明 : 结果 由 三 表 组 成 。 


(3) 第 3 次 迭代 ， 产 生 频 繁 3- 项 集 3， 如 表 4-10 所 示 。 
表 4-10 ”Apriori 算法 第 3 次 迭代 



























步骤 二 : 从 频繁 项 集 产生 关联 规则 。 








© ® 

候选 频繁 
3- 项 集 C3 3- 项 集 13 ] 
{11, 12, B} {11, 12, I5} 20 
{11, 12, 15} {12, B, I5} 
{11, 13, 15} 
{12, 13, 14} 
{12, 1B3, 15} 

说 明 : 结果 由 三 表 组 成 。 


由 用 户 置信 度 2/3 可 以 得 出 Apriori 算法 得 到 的 强 关联 规则 , 如 表 4-11 









































所 示 。 
表 4-11 Apriori 算法 得 到 的 强 关 联 规则 
二 四 @ @ 

频繁 项 集 产生 的 规则 信 度 强 关 联 规 则 度 
{I1, 12} I1—I2 3/4 I1->I2 
{I1, 13} I2—I1 3/7 14-> I2 
{I1, I5} I1—13 2/4 I5->I2 
{12, 13} HB3 一 Il 2/7 I5-> 13 
{12, 14} II 一 I5 2/4 I1, 一 I5 
{12, I5} 15 一 I1 2/4 11, I5 一 I2 
{13, I4} 12—13 4/7 I2, I5 一 Il 
{13, I5} 13—I2 4/7 12, I5—13 
{I1, 12, 15} I2—1I4 3/7 13, 15—1I2 
{12, 13, I5} I4—I2 3/4 

ra 3/7 

IS—I2 3/4 

I3—14 PE 

I4—I3 2/4 

I3—15 317 

sa 4 3/4 

于, 一 15 2/3 

下 ed V4 212 

也, 了 = 2/3 

2 B= 2/4 

到, I-13 23 

到 ,下 到 2/3 
说 明 : 结果 由 三 表 组 成 。 


4.5.3 ”关联 规则 在 大 型 超市 中 应 用 的 步骤 


下 面 进行 实例 介绍 , 分 析 关 联 规则 在 大 型 超市 中 的 应 用 , 通过 分 析 
得 出 超市 商品 销售 模式 。 大 型 超市 的 销售 数据 非常 庞大 且 复 杂 多 样 , 里 
面 蕴 含 着 丰富 的 信息 。 随 着 大 数据 挖掘 技术 的 研究 与 发 展 , 这 些 信息 便 
E 够 通过 不 同 的 算法 和 方法 进行 挖掘 。 

为 了 达到 更 好 的 销售 业绩 以 及 订货 定价 , 对 以 往 产生 的 历史 销售 数 
据 进行 分 析 和 数据 挖掘 ， 获 取 各 种 商品 的 销售 数量 、 销 售 趋势 等 信息 ， 
是 非常 有 必要 的 。 同 时 ， 还 能 够 获取 各 种 商品 销售 之 间 的 关联 关系 ， 从 
而 制定 更 合理 的 商品 的 货 篮 分 析 和 组 合 管理 。 

下 面 以 某 大 型 连锁 超市 2017 年 1 月 3 日 和 4 日 的 所 有 销售 记录 为 
例 进 行 分 析 。 该 数据 来 源 于 该 大 型 连锁 超市 的 收银 台 的 收银 信息 。 


1. 数据 描述 及 预 处 理 


首先 ， 通 过 ODBC 连接 Access 数据 库 中 的 原始 表格 ， 原 始 数据 如 
表 4-12 所 示 。 





表 4-12 原始 数据 库 


流 水 编 号 | 单据 录入 时 间 
201701030001 | 2017/1/3 8:03 
201701030001 | 2017/1/3 8:03 
201701030001 | 2017/1/3 8:03 
201701030002 | 2017/1/3 8:23 


201701030002 | 2017/1/3 8:23 | 散装 糖 心 苹果 6.002 
201701030003 | 2017/1/3 8:33 | 楼 外 楼 糖 醋 里 疹 
201701030004 | 2017/1/3 8:53 | 新 鲜 猪 前 腿 肉 
201701030005 | 2017/1/3 9:11 | 散装 大 排 
201701030005 | 2017/1/3 9:11 | 散装 大 排 
201701030005 | 2017/1/3 9:11 | 散装 大 排 
201701030005 | 2017/1/3 9:11 
201701030005 | 2017/1/3 9:11 
201701030005 | 2017/1/3 9:11 
201701030005 | 2017/1/3 9:11 
201701030005 | 2017/1/3 9:11 
201701030005 | 2017/1/3 9:11 | 新 鲜 夹心 肉 沫 17.002 
201701030006 | 2017/1/3 9:23 | 散装 钟 华 臭 豆腐 18.002 
201701030006 | 2017/1/3 9:23 | 散装 钟 华 炸 素 鸡 19.002 



































流水 编号 | 单据 录入 时 间 | 商品 名 称 
201701030007 | 2017/1/3 9:53 | 祖 名 特 白 豆腐 
201701030007 | 2017/1/3 9:53 | 散装 青菜 
201701030007 | 2017/1/3 9:53 | 散装 大 白菜 
201701030007 | 2017/1/3 9:53 | 湖 羊 鲜 桨 油 
201701030008 | 2017/1/3 9:58 | 五 桥 玉米 粉 
201701030009 | 2017/1/3 9:58 | 散装 土豆 
201701030009 | 2017/1/3 9:58 | 光明 牛奶 
201701030009 | 2017/1/3 9:58 | 散装 萝卜 


然后 ， 通 过 编写 Access 数据 库 的 查询 语句 (Select 语句 ),， 分 别 获得 
CusCode( 编 号) 和 itemname 〈 物 品名 称 ) 两 列 的 具体 内 容 ， 如 表 4-13 
和 表 4-14 所 示 。 


表 4-13 存放 顾客 CusCode (编号 ) 的 数组 


| 1 | :2 | :3 |4 | s | se | 


201701 | 201701 | 201701 | 201701 | 201701 | 201701 
030001 | 030002 | 030003 30004_ | 030005_ | 030006 


4 5 


最 后 , 将 数据 库 中 的 客户 购买 信息 转化 为 0-1 表 ( 其 中 1 代表 购买 ， 
0 代表 没有 购买 )， 结 果 如 表 4-15 所 示 。 


表 4-15 某 超市 购买 信息 0-1 表 
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2. 计算 结果 及 分 析 
根据 超市 各 种 商品 的 销售 量 和 顾客 购买 情况 等 信息 设 定 最 小 支持 度 








和 最 小 置信 度 (不 同 的 超市 可 以 根据 各 自 的 实际 情况 设 定 不 同 的 最 小 支持 
度 和 最 小 置信 度 ) 。 这 里 设 定 最 小 支持 度 为 0.2， 最 小 置信 度 为 0.7。 
步骤 一 产生 频繁 项 集 和 步骤 二 从 频繁 项 集 产生 关联 规则 在 这 里 就 不 进 
行 一 一 冰 述 。 这 两 个 步骤 留 给 大 家 思考 完成 。 
同时 思考 : 是 否 可 以 编写 商品 名 称 和 顾客 编号 CusCode 的 0-1 表 ， 同 
样 设 定 最 小 支持 度 为 0.2， 最 小 置信 和 度 为 0.7， 通 过 关联 规则 分 析 ， 得 出 的 
结果 又 是 什么 ? 


通过 对 顾客 购买 东西 的 关联 规则 分 析 ， 结 果 对 于 该 超市 的 物品 摆 
放 、 顾 客 的 购买 模式 研究 、 商 品 的 进货 及 库存 管理 等 方面 都 有 一 定 指导 
意义 ， 从 而 更 好 地 满足 顾客 。 


4.6 ”作业 与 练习 


1. 说 明 关 联 规则 挖掘 的 目的 和 作用 。 

2. 简要 说 明 在 频繁 模式 发 现 技 术 中 ， 产 生 候选 项 集 和 不 产生 候选 
项 集 两 种 技术 各 自 的 特点 和 优 缺 点 。 

3. 如 表 4-1 所 示 , 设 定 最 小 支持 度 s=10% 和 s=40%, 置信 度 c=70%， 
试 分 别 计算 该 示例 数据 库 中 的 频繁 项 集 和 规则 。 

4. 练习 使 用 SQL Server 2005 的 关联 规则 挖掘 模型 。 
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综合 实战 一 日 志 的 挖 据 与 应 用 


日 志 对 于 计算 机 系统 运 维 人 员 来 说 , 是 最 熟悉 不 过 的 名 字 了 , 我们 
所 管理 的 系统 包括 设备 、 系 统 、 应 用 程序 等 ， 可 以 说 是 时 时 刻 刻 都 在 源 
源 不 断 地 产生 大 量 的 日 志 。 无 数 的 IT 实践 表明 ， 健 全 的 日 志 记录 和 有 日 
志 挖 掘 分 析 是 快速 响应 解决 系统 安全 事故 并 确保 系统 可 靠 运行 及 优化 
的 基础 。 作 为 数据 挖掘 的 一 种 典型 应 用 ， 本 章 就 是 通过 介绍 日 志 概 念 、 
日 志 处 理 和 日 志 分 析 原 理 及 工具 , 来 展示 日 志 挖 掘 在 安全 运 维 、 系 统 健 
康 、 业 务 分 析 设 计 中 所 取得 的 良好 应 用 效果 。 





5.1 日志 概念 


15 世纪 末 到 16 世纪 初 ， 欧 洲 人 横渡 大 西洋 到 达 美 洲 、 绕 道 非洲 南 
端 到 达 印 度 以 及 第 一 次 环球 航行 取得 成 功 , 历史 上 习惯 称 为 “地 理 大 发 
现 ”。 航行 期 间 ， 由 值班 驾驶 员 按 时 记载 船舶 在 航行 和 停泊 过 程 中 的 主 
要 情况 ， 包 括 航 向 、 航 速 、 航 位 、 气 象 、 潮 流 、 海 面 和 航道 情况 、 燃 料 
消耗 、 旅 客 上 下 、 货 物 装 卸 以 及 船舶 在 航行 和 停泊 时 所 发 生 的 重大 事件 
等 。 该 记录 被 称 为 “ship's log”， 它 是 船舶 日 常 工作 的 记录 ， 检 查 船员 
值班 责任 的 依据 , 也 是 处 理 海事 时 所 必须 引用 且 能 在 法 律 上 起 作用 的 原 
始 资料 。 

计算 机 兴起 后 也 借鉴 了 “log” 的 概念 ， 用 于 记录 计算 机 日 常 运行 
过 程 中 的 “重大 事件 ”汉语 中 使 用 “日 志 ” 与 之 对 应 。 日 志 : 每 天 记 
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录 。《 周 礼 》 注 : 志 ， 古 文 识 ; 识 ， 记 也 。 
5.1.1 日 志 是 什么 


所 谓 日 志 (Log) 是 指 系统 所 指定 对 象 的 某 些 操作 和 其 操作 结果 按 
时 间 有 序 的 集合 。 一 一 百度 百科 


日 志 数据 的 核心 就 是 简单 的 日 志 消息 。 日 志 消息 是 计算 机 系统 、 设 
备 、 软 件 等 为 响应 触发 事件 而 记录 的 信息 。 而 触发 事件 的 定义 则 很 大 程 
度 上 取决 于 日 志 消 息 的 来 源 。 

日 志 数 据 可 详细 列 出 应 用 程序 的 信息 、 系 统 性 能 或 用 户 活动 等 。 

几乎 所 有 的 计算 机 相关 的 设备 、 系 统 、 网 络 、 应 用 都 会 产生 日 志 。 


5.1.2 日 志 能 做 什么 


在 很 多 企业 里 ,日 志 没 有 受到 足够 的 重视 ， 其 原因 众多 ， 首 先 ， 
因 服 务 费 问题 ， 大 多 数 供应 商 并 无 意 让 终端 用 户 完全 掌握 日 志 信息 ; 
其 次 ， 终 端 用 户 由 于 能 力 、 时 间 等 因素 也 没有 对 大 量 日 志 进 行 深度 分 
析 的 原动力 ， 再 次 ， 日 志 分 析 的 方法 相当 复杂 ， 其 常用 的 正则 语法 就 
难以 掌握 ， 最后， 日 志 分 析 工 具 的 选用 、 搭 建 、 架 构 需要 较 深 的 技术 
功底 。 

日 志 能 用 来 做 什么 ? 


1. 故障 排除 

日 志 中 ， 常 使 用 info、waming、error、critical 等 标注 计算 机 组 件 
运行 的 状态 。 通 过 关键 字 查找 ， 能 够 较 容 易 定位 故障 原因 。 如 Oracle 
数据 库 日 志 信息 : 

ORA-6504 Rowtype-mismatch 

可 通过 搜索 引擎 查找 关键 字 “ORA-6504”， 定 位 故障 为 “宿主 游标 
变量 与 PL/SQL 变量 有 不 兼容 行 类 型 ”。 

2. 资源 管理 

日 志 记 录 了 计算 机 组 件 在 时 间 序 列 上 的 运行 状态 ， 其 中 也 包括 性 
能 容量 。 如 RHEL (RedHat Enterprise Linux ) /var/log/message 中 有 类 
似 信息 : 


9 


一 


Mar 22 23:28:02 localhost kernel: Memory: 968212k/1048576k available 
(6764k kernel code, 524k absent, 79840k reserved, 4433k data, 1680k init) 


该 日 志 信息 详细 地 描述 了 实时 Memory 的 使 用 情况 。 

优化 资源 管理 的 目标 是 找 出 待 优 化 程序 的 瓶颈 , 常见 的 手段 就 是 利 
用 优化 软件 分 析 系统 运行 生成 的 日 志 信息 , 跟踪 到 待 优化 程序 的 每 个 执 
行 步骤 消耗 的 运行 时 间 、 内 存 、CPU 利用 率 等 参数 ， 从 而 找到 瓶颈 ， 
优化 资源 管理 。 


3. 入 侵 检测 


日 志 分 析 常 被 用 于 被 动 攻击 的 分 析 和 防御 中 ，IDS、IPS 就 是 常见 
的 入 侵 检测 和 防护 工作 。 通 过 对 网 络 日 志 的 实时 检测 、 分 析 ， 可 以 断定 
和 寻找 攻击 源 ， 从 而 找到 有 效 的 抵御 措施 。 根 据 日 志 分 析 ， 对 IPS 设备 
的 策略 进行 了 相应 调整 ,加强 了 特定 时 间 段 的 防御 规则 ， 并 针对 弱 口 令 
等 主要 事件 进行 了 定期 检测 整改 ， 降 低 了 危险 事件 的 数量 。 

4. 取证 审计 

各 个 行业 都 有 审计 安全 的 需求 , 通过 日 志 进 行 调查 取证 和 审计 是 其 
中 一 个 重要 的 组 成 部 分 , 内 控 与 合 规 审计 越 来 越 受到 企业 和 相关 监管 部 
门 的 重视 ， 法 规 遵从 、 企 业内 控 成 为 IT 业界 的 热点 话题 和 发 展 趋势 。 

大 多 数 数据 中 心 运 维 使 用 统一 用 户 登 录 平 台 , 常 称 为 堡垒 机 。 堡 驳 
机 除了 集中 管理 操作 人 员 权 限 外 , 最 重要 的 功能 模块 为 审计 。 堡垒 机 详 
细 记 录 何 时 、 何 地 、 何 人 、 登 录 何 服务 器 做 何 操作 , 记录 可 以 是 录 屏 ( 视 
频 )、 录 音 〈 音 频 )、 数 据 文 件 、 字 符 等 。 这 些 记录 能 够 有 效 地 还 原 操作 
现场 ， 用 于 取证 和 审计 。 


5. 数据 挖掘 


日 志 是 数据 挖掘 的 基础 信息 ， 使 用 日 志 做 故障 排除 、 资 源 管理 、 入 
侵 检 测 和 取证 审计 仅 为 日 志 使 用 的 初级 阶段 。 可 通过 基础 日 志 检索 、 降 
噪 、 抽 样 、 聚 类 、 回 归 等 手段 对 数据 做 预 处 理 ， 进 而 录入 数据 仓库 并 根 
据 数据 模型 做 关联 分 析 构 成 数据 立方 体 等 ， 深 度 挖掘 数据 价值 。 

例如 ， 你 在 某 宝 上 浏览 了 “adidas Crazy 1 Kobe 1 全 明星 篮球 鞋 ”， 
浏览 日 志 被 记录 在 “我 的 足迹 ”， 通 过 检索 分 析 后 ， 向 你 推荐 “福州 款 ” 
“ 虎 扑 款 ?”“ 国 外 代购 款 ”“ 天 猫 款 ”篮球 鞋 。 同 时 根据 模型 分 析 ， 认 为 
你 可 能 是 科比 - 布 莱 恩 特 球迷 ， 并 推荐 湖人 队 球 衣 、 科 比 打火机 、 科 比 
公仔 、 总 冠军 戒指 仿 品 等 。 关 联 分 析 认 为 你 应 该 是 80 后 ， 已 参加 工作 
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并 有 一 定 的 经 济 基础 ， 同 时 推荐 马自达 Axela 汽车 等 。 


5.2 日 志 处 理 


日 志 处 理 过 程 的 生命 周期 可 以 初步 划分 为 生成 日 志 、 传 输 日 志 、 存 
储 日 志和 分 析 日 志 4 个 阶段 ， 如 图 5-1 所 示 。 


传输 日 志 : 生成 日 志 : 
日 志 基于 某 种 协议 传输 , 如 SNMP、 操作 系统 、 数 据 库 、 中 间 件 、 应 用 、 
Syslog 协 议 。 硬件 设备 等 生成 日 志 。 
一 多 存储 日 志 : 
oo 日 志 的 存储 和 快速 检索 分 析 。 


分 析 日 志 : 
通过 某 种 组 合 命令 、 日 志 工 具 或 系 
统 分 析 日 志 信息 ， 控 掘 日 志 “ 内 涵 ”。 
名 


图 5-1 日 志 处 理 过 程 的 生命 周期 
52.1 产生 目 志 


绝 大 多 数 IT 设备 均 产 生日 志 ， 例 如 : 

操作 系统 ， 如 Linux、Windows、AIX 等 。 

硬件 服务 器 ， 如 大 型 机 、 小 型 机 、PC Server、 打 印 机 等 。 
网 络 设备 ， 如 路 由 器 、 交 换 机 、F5 等 。 

安全 设备 ， 如 防火 墙 、 防 病毒 系统 等 。 

数据 库 ， 如 Oracle、DB2、MySQL、PostgreSQL 等 。 

中 间 件 ， 如 Apache、WebLogic、MQ 等 。 


传输 日 志 


DBD ODDOGDDO 


5.2: 


日 志 一 旦 产生 ， 如 无 进一步 分 析 需 求 ,将 随 着 时 间 的 推移 ,在 本 地 
根据 日 志保 留 策略 自行 消亡 。5.1.2 节 阐 述 了 日 志 在 实际 工作 中 的 用 途 ， 
管理 员 也 无 法 逐个 设备 分 析 大 量 的 日 志 信息 ， 为 了 最 大 发 挥 日 志 的 作 
用 , 绝 大 多 数 的 数据 中 心 设 有 日 志 记 录 系 统 , 通过 网 络 集中 收集 各 类 日 
志 数 据 。 

日 志 常用 传输 协议 有 syslog UDP、 syslog TCP、SOAP、 SNMP、FTP、 
SFTP、NFS 等 。 

日 志 传输 有 “ 推 ?“ 拉 ”两 种 模式 ， 如 图 5-2 所 示 。 
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图 5-2 “日志 传输 的 两 种 模式 





1. 拉 


日 志 记录 系统 向 设备 拉 取 日 志 数据 。 该 方式 一 般 基 于 C/S 模型 。 通 
常 以 专 有 格式 保存 日 志 数据 。 例 如 ， 拉 取 CheckPoint 防火 墙 日 志 。 


2. 推 


设备 向 日 志 记 录 系 统 推送 日 志 数据 。 

类 UNIX 操作 系统 设计 有 syslog (或 syslog-ng、rsyslog)。syslog 
通过 使 用 UNIX 域 套 接 字 (/dev/log)、UDP 协议 514 端口 (syslog-ng、 
rsyslog 支持 TCP 协议 ) 或 特殊 设备 /dev/klog〈 读 取 内 核 消息 ) 从 应 用 
程序 和 内 核 接收 日 志 记 录 ， 如 图 5-3 所 示 。 


写 入 文件 或 日 记 用 户 进程 
或 发 送 给 其 他 主机 





= | 
syslog 


UNIX 域 数据 报 套 接 字 ” 英 特 网 域 数 据 报 套 接 字 























log 
内 核 内 核 例 程 
TCP/IP 网 络 
5-3 syslogd 的 发 送 模式 
(1) syslog 设施 (Facility) 
syslog Facility 解析 如 表 5-1 所 示 。 
表 5-1 syslog Facility 解析 
设 施 描 述 
kern 内 核 日 志 消 息 
User 随机 的 用 户 日 志 消 息 
mail 邮件 系统 日 志 消息 
daemon 系统 守护 进程 日 志 消 息 





























续 表 
设 施 设 施 码 描 述 

auth 4 安全 管理 日 志 消息 
syslog 5 syslogd 本 身 的 日 志 消 息 
lpr 6 打印 机 日 志 消息 
news 7 新 闻 服 务 日 志 消 息 
uucp 8 UUCP 系统 日 志 消 息 
cron 9 系统 始终 守护 进程 crond 的 日 志 消 息 
authpriv 10 私有 的 安全 管理 日 志 消 息 
ftp 11 ftp 守护 进程 日 志 消息 

12~15 保留 为 系统 使 用 

16~23 保留 为 本 地 使 用 


(2) syslog 级 别 (Severity) 





syslog Severity 解析 如 表 5-2 所 示 。 
表 5-2 syslog Severity 解析 


warning 
notice 
info 
debug 


级 别 
0 





-ov | I | 


码 


描 述 
系统 不 可 用 
必须 马上 采取 行动 的 事件 
关键 的 事件 
错误 事件 
警告 事件 
普通 但 重要 的 事件 
有 用 的 信息 
调试 信息 


(3) syslog 动作 指 信息 发 送 的 目的 地 
/<filename>: 发 送 给 日 志文 件 的 绝对 路 径 。 





(4) syslog 消息 组 成 
由 PRI (=Facilityx8+Serverity)、HEADER (时 间 + 主 机 名 /IP)、MSG 
(TAG+Content) 组 成 ， 如 图 5-4 所 示 。 


PRI 


HEADER 


<user>: 发 送 给 指定 的 用 户 。 


口 

口 @<host>: 发 送 给 远程 syslog 服务 器 IP 或 域名 。 
口 

口 *: 发 送 给 所 有 用 户 。 


MSG 


Oct 11 23:32:21 herculeslauditd[1787]: The audit daemon is exiting 


5-4 ”syslog 消息 组 成 
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(5) syslog 客户 端 配置 
编辑 /etc/syslog.conf 文件 ， 如 下 例 。 
口 kerm.* /dev/console 将 所 有 级 别 的 内 核 日 志 发 送 到 终端 。 
口 ./var/log/messages 将 所 有 类 型 所 有 级 别 的 日 志 记 录 到 /var/log/ 
messages 文件 。 
口 *.info;mail.none;authpriv.lerr -/Var/log/messages 所 有 info 级 别 以 
上 的 信息 ， 不 包括 mail 类 型 所 有 级 别 和 authpriv 类 型 的 err 级 
别 信 息 ， 记 录 到 /var/log/messages 文件 ， 不 立即 写 入 。 
口 kem.*@1.1.1.1 将 所 有 级 别 的 内 核 日 志 发 送 到 远程 syslog 服务 

六 EI 
小 结 :“ 推 ”是 一 种 建立 在 客户 服务 器 上 的 机 制 ， 就 是 由 服务 器 主 
动 将 信息 发 往 客户 端的 技术 。 同 传统 的 拉 技 术 相 比 , 最 主要 的 区 别 在 于 ， 
“ 推 ” 是 由 服务 器 主动 向 客户 机 发 送信 息 ， 而 “ 拉 ” 则 是 由 客户 机 主动 
请 求 和 索取 信息 。“ 推 ”的 优势 在 于 信息 的 主动 性 和 及 时 性 。 

事实 上 ， 今 天 互联 网 技术 在 对 信息 的 处 理 过 程 中 ,“ 推 ”与 “ 拉 ?” 
两 种 模式 都 是 交叉 进行 的 。 没 有 绝对 地 “ 推 ” 或 “ 拉 ”。 例 如 ， 如 今 一 
些 电 商 经 常 “ 推 ” 送 一 些 购物 打折 广告 到 我 们 的 电子 邮箱 。 同 时 ， 如 果 
你 主动 去 电 商 网 站 搜索 “ 拉 ” 取 你 所 需要 的 物品 。 电 商都 会 将 你 的 查询 
信息 记录 下 来 , 根据 你 的 兴趣 爱好 定期 向 你 发 送 相 关 的 商品 介绍 , 或 者 
当 你 没有 找到 此 次 查询 的 东西 ， 电 商会 在 下 次 有 “你 想 要 的 ”东西 时 通 
知 你 ， 这 都 是 电 商 为 你 提供 的 定制 化 服务 。 这 是 一 种 用 户 先 “ 拉 ” 而 
网 站 后 “ 推 ” 的 信息 服务 模式 。 可 谓 推 中 有 拉 ， 拉 中 有 推 。 


5.2.3 ”存储 日 志 





日 志 的 集中 存储 和 快速 检索 是 实际 工作 中 的 一 个 关键 问题 。 在 数据 
中 心 , 各 类 应 用 日 志 以 TB、PB 级 增长 。 日 志 通常 以 如 下 几 种 格式 存储 。 


1. 文本 格式 存储 日 志 


大 多 数 流行 的 应 用 都 采用 基于 文本 的 日 志文 件 格式 , 如 前 面 提 到 的 
syslog。 文本 格式 存储 日 志 消耗 系统 资源 低 ; 以 人 类 可 读 写 的 格式 存在 ， 
可 方便 地 使 用 vi、vim、grep、awk、sed 常用 系统 命令 查阅 和 编辑 ， 存 
储 方式 技术 难度 低 。 

当 数 据 量 较 大 时 ,日志 仅 按 照 “ 流 水 账 ”形式 记录 在 文本 文件 , 无 
法 快速 排序 、 查 找 、 检 索 。 常 见方 法 是 将 日 志 以 某 种 规则 组 织 到 分 割 的 
文件 中 ， 称 为 索引 扁平 文本 格式 。 如 Linux 系统 apache 日 志 存储 文件 














es。 第 5 音 实 上 E 
可 配置 为 : 
ErrorLog | /usrlocal/apache/bin/rotatelogs 
/home/logs/www/%Y_%m_ %d_error_log 86400 480" 
CustomLog | /usrlocal/apache/bin/rotatelogs 


/home/logs/www/%Y_%m_ %d_access_log 86400 480" common 


注 : %Y_%m %d 代表 year (年 ，2017) month (月 ，02) day 
《 目 s 2 

2. 二 进 制 格式 存储 日 志 

二 进 制 日 志文 件 是 应 用 程序 生成 机 器 可 读 写 的 日 志文 件 。 二进制 日 
志 存 储 格 式 在 磁盘 空间 利用 率 上 很 高 效 , 同等 数据 量 使 用 文本 格式 存储 
日 志 是 二 进 制 存储 格式 消耗 磁盘 空间 的 近 10 倍 。AIX 操作 系统 /var/ 
adm/ras/errlog， 该 日 志 记 录 了 系统 所 检测 到 的 软 硬 件 故 障 和 错误 ， 尤 其 
对 系统 的 硬件 故障 有 极 大 的 参考 价值 。 使 用 more、tail 或 vi 等 文本 查 
看 命令 查看 是 乱码 : 


root@XXX:/var/ladm/ras>tail errlog 
W_8disk2107TE 


使 用 AIX 系统 命令 errpt 查看 : 


root@XXX:/varadm/ras>errpt 
IDENTIFIER TIMESTAMP TCRESOURCE_NAME DESCRIPTION 


DCB47997 0413021017 TH hdisk0 DISK OPERATION ERROR 
4B436A3D 0413021017 TH fscsi3 LINK ERROR 
DCB47997 0213082017 TH hdisk1 DISK OPERATION ERROR 


3. 压缩 文件 格式 存储 日 志 


文本 格式 存储 日 志方 便 查看 , 但 占用 空间 大 ; 二 进 制 格式 存储 日 志 
占用 空间 小 ， 但 不 方便 查看 。 如 何 综合 两 种 格式 的 优点 呢 ? 

应 该 以 文本 格式 记录 日 志 ( 易 查看 ), 以 压缩 文件 格式 存储 日 志 ( 省 
空间 )。 

压缩 率 (Compression Ratio)， 描 述 压缩 文件 的 效果 名 ， 是 文件 压 
缩 后 的 大 小 与 压缩 前 的 大 小 之 比 。 例 如 ，100m 的 文件 压缩 后 是 90m， 
压缩 率 为 90/100x100%=90%， 压 缩 率 一 般 是 越 小 越 好 ， 但 是 压 得 越 小 ， 
解压 时 间 越 长 。 

可 认为 ， 类 UNIX 操作 系统 上 文本 文件 使 用 targz 格式 可 按照 10:1 
的 比率 压缩 。 
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4. 数据 库存 储 日 志 


前 面 叙 述 的 日 志 存储 格式 有 快速 、 高 效 的 特点 。 但 需要 对 日 志 做 复 
杂 搞 要 报告 、 过 滤 或 者 日 志 关联 分 析 时 ， 就 无 法 满足 需求 了 。 将 日 志 信 
息 按 照 某 种 规则 写 入 数据 库 ， 可 解决 该 类 需求 。 

将 日 志 写 入 数据 库 ， 可 以 使 用 标准 SQL 快速 搜索 、 检 索 和 关联 查 
询 日 志 信息 ; 数据 库 系统 具有 成 熟 的 用 户 权 限 管理 系统 ; 大 多 数 数据 库 
有 特定 专 有 工具 方便 查询 操作 ; 数据 库 系统 提供 了 丰富 的 接口 , 可 方便 
地 开发 日 志 分 析 前 端 工具 〈 如 日 志 查 看 Web)。 

但 数据 库存 储 日 志 也 有 风险 存在 , 如 增 大 了 系统 的 开销 , 日 志 写 入 
数据 库 较 写 入 磁盘 的 文本 文件 慢 , 对 磁盘 的 空间 和 性 能 需要 也 较 高 , 日 
志 数 据 库 本 身 的 搭建 、 维 护 成 本 较 高 ， 以 及 数据 库 可 能 因 裔 溃 而 造成 数 
据 丢失 等 。 


5. Hadoop 存储 日 志 


与 传统 文本 、 二进制、 压缩 文件 、 数 据 库 格 式 存储 日 志 相 比 , Hadoop 
存储 日 志 是 较 新 、 较 成 熟 的 解决 方案 。 大 型 的 互联 网 公司 ， 如 谷歌 、 
Facebook 都 使 用 Hadoop 来 存储 和 管理 它们 庞大 的 数据 集 。Hadoop 也 
通过 这 些 领 域 的 应 用 证 明了 其 五 大 优势 : 高 可 扩展 性 、 低 成 本 高 效益 、 
灵活 性 好 、 处 理 快 、 容 错 高 。 

HDFS (Hadoop Distributed File System) Hadoop 分 布 式 文件 系统 是 
其 核心 组 件 。HDFS 是 一 个 能 够 面向 大 规模 数据 使 用 的 , 可 进行 扩展 的 
文件 存储 与 传递 系统 。 是 一 种 允许 文件 通过 网 络 在 多 台 主 机 上 分 享 的 文 
件 系统 ,可 让 多 机 器 上 的 多 用 户 分 享 文件 和 存储 空间 。 让 实际 上 是 通过 
网 络 来 访问 文件 的 动作 ， 由 程序 与 用 户 看 来 , 就 像 是 访问 本 地 的 磁盘 一 
般 。 即 使 系统 中 有 某 些 节点 脱 机 ， 整 体 来 说 ， 系 统 仍然 可 以 持续 运作 而 
不 会 有 数据 丢失 。 

NameNode 和 DataNode 是 HDFS 的 两 个 主要 组 件 。 

口 NameNode: 是 整个 文件 系统 的 管理 节点 。 功 能 包括 整个 文件 
系统 文件 目录 树 、 文 件 / 目 录 的 元 信息 和 每 个 文件 对 应 的 数据 块 
列表 ， 以 及 受理 用 户 的 操作 请 求 。 

口 DataNode: 提供 真实 文件 数据 的 存储 服务 。 

例如 ， 客 户 端 发 送 一 个 请 求 给 NameNode， 说 它 要 将 “facai.log” 
文件 写 入 到 HDFS。 那 么 ， 其 执行 流程 如 图 5-5 所 示 。 具 体 步 又 如 下 。 

stepl 客户 端 发 消息 给 NameNode, 说 要 将 “facailog” 文 件 写 入 。 

step2 NameNode 发 消息 给 客户 端 ， 让 客户 端 写 到 DataNode A、B 
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图 5-5 HDFS 文件 写 入 步骤 


step3 ”客户 端 发 消息 给 DataNode B， 让 它 保 存 一 份 “facai.log” 文 
件 ， 并 且 发 送 一 份 副本 给 DataNode A 和 DataNode D。 

step4 DataNode B 发 消息 给 DataNode A, 让 它 保存 一 份 * facai.log” 
文件 ， 并 且 发 送 一 份 副本 给 DataNode D。 

step5 ”DataNode A 发 消息 给 DataNode D, 让 它 保 存 一 份 * facai.log” 
文件。 

step6 ”DataNode D 发 确认 消息 给 DataNode A。 

step7 DataNode A 发 确认 消息 给 DataNode B。 

step8 ”DataNode B 发 确认 消息 给 客户 端 ， 表 示 写 入 完成 。 

在 分 布 式 文件 系统 的 设计 中 ， 挑 战 之 一 是 如 何 确保 数据 的 一 致 性 。 
对 于 HDFS 来 说 , 直到 所 有 要 保存 数据 的 DataNode 确认 它们 都 有 文件 的 
副本 时 ， 数 据 才 被 认为 写 入 完成 。 因 此 ， 数 据 一 致 性 是 在 写 的 阶段 完成 
的 。 一 个 客户 端 无 论 选择 从 哪个 DataNode 读 取 ， 都 将 得 到 相同 的 数据 。 

HDFS 的 读 取 具 体 步 又 如 图 5-6 所 示 。 


E F 





5-6 ”HDFS 文件 读 取 步 骤 
stepl 客户 端 询问 NameNode 它 应 该 从 哪里 读 取 文 件 。 
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step2 ”NameNode 发 送 数据 块 的 信息 给 客户 端 (数据 块 信息 包含 了 
保存 着 文件 副本 的 DataNode 的 卫 地 址 ， 以 及 DataNode 在 本 地 硬盘 查 
找 数据 块 所 需要 的 数据 块 ID)。 

step3 ”客户 端 检 查 数 据 块 信息 , 联系 相关 的 DataNode, 请 求 数据 块 。 

step4 ”DataNode 返回 文件 内 容 给 客户 端 ， 然 后 关闭 连接 ， 完 成 读 
操作 。 

客户 端 并 行 从 不 同 的 DataNode 中 获取 一 个 文件 的 数据 块 ， 然 后 联 
结 这 些 数据 块 ， 拼 成 完整 的 文件 。 

Hadoop 有 传统 数据 库 系统 的 许多 优点 ， 如 不 用 在 这 个 系统 上 使 用 
特定 的 查询 工具 就 能 对 日 志 快 速 检索 ， 将 检索 请 求 分 布 到 集群 个 节点 ， 
分 流 IO 压力 的 同时 实现 了 更 好 的 伸缩 性 ; 主要 由 Java 构建 , 可 开发 工 
具 实 现 日 志 数 据 的 实时 查看 和 分 析 ; HDFS 将 数据 存储 为 有 结构 的 扁平 
文件 ,可比 传 统 数 据 库 更 快 地 读 写 文 件 ， 作 用 于 多 个 集群 节点 ,数据 元 
余 、 容 错 性 高 。 

但 目前 支持 Hadoop 的 日 志 工 具 是 有 限 的 。 


5.2.4 ”分析 日 志 





1. 日 志 包 括 哪些 信息 


分 析 日 志 前 , 有 必要 明确 日 志 记录 哪些 信息 ? 还 记得 叙述 文 4 要 素 
吗 ? 单行 日 志 一 般 包括 如 下 内 容 。 

口 时 间 (When)。 日 志 信 息 触发 的 时 间 点 。 

口 地 点 (Where)。 日 志 信 息 触发 在 何 处 ， 服务器、 网 络 设备 、 应 
用 等 。 

口 人 物 (Who)。 日 志 信 息 触 发 的 具体 组 件 , 通常 可 认为 是 Where 
的 补充 信息 。 

口 事件 (What)。 触 发 了 什么 事件 。 

通过 联系 日 志 上 下 文 ， 可 分 析 得 到 如 下 内 容 。 

口 为 什么 发 生 (Why)。 发 生 的 原因 。 

口 怎么 样 发 生 (How)。 发 生 的 过 程 。 

日 志 包 括 的 信息 如 图 5-7 所 示 。 





图 5-7 日 志 包 括 哪些 信息 
注 : 根据 日 志 编 码 的 不 同 , 日 志 内 容 6 要 素 间 的 界限 不 一 定 非常 清 


晰 ， 但 一 份 好 的 日 志 应 该 尽量 包括 这 些 内 容 ， 便 于 后 期 日 志 分 析 。 
2. 简单 的 日 志 分 析 命令 


类 UNIX 操作 系统 内 置 了 多 款 命 令 , 可 以 组 合用 于 简单 日 常 分 析 日 
志 信息 。 

(1) grep 

Global Regular Expression Print， 用 于 匹配 文件 内 容 包 含 指定 范本 
样式 的 条 目 ， 并 打印 匹配 到 的 条 目 。 

相关 命令 : egrep、ferep、rgrep 

格式 : grep [options] 

常用 参数 : 

grep 常用 参数 如 表 5-3 所 示 


表 5-3 grep 常用 参数 





参数 描述 
-C 只 输出 匹配 行 的 计数 
-I 不 区 分 大 小 写 〈 只 适用 于 单字 符 ) 
-h 查询 多 文件 时 不 显示 文件 名 
-1 查询 多 文件 时 只 输出 包含 匹配 字符 的 文件 名 
-n 显示 匹配 行 及 行 号 
-Ss 不 显示 不 存在 或 无 匹配 文本 的 错误 信息 
-V 显示 不 包含 匹配 文本 的 所 有 行 


Pattern 正则 表达 式 常 用 参数 如 表 5-4 所 示 。 
表 5-4 grep pattern 正则 常用 参数 





















































参 数 描 述 
\ 忽略 正则 表达 式 中 特殊 字符 的 原 有 含义 
由 匹配 正则 表达 式 的 开始 行 
$ 匹配 正则 表达 式 的 结束 行 
\< 从 匹配 正则 表达 式 的 行 开 始 
be 到 匹配 正则 表达 式 的 行 结束 
0 单个 字符 ， 如 [A] 即 A 符合 要 求 
[-] 范围 ， 如 [A-Z]， 即 A、B、C 一 直到 Z 都 符合 要 求 
所 有 的 单个 字符 
上 所 有 字符 ， 长 度 可 以 为 0 
参数 范例 : 


口 -c 匹配 /etc/passwd 中 包含 nologin 字符 串 的 行 并 打印 ， 有 26 
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个 匹配 行 。 例 如 : 


# grep -c nologin /etc/passwd 
26 


口 -i 匹配 /etc/passwd 中 含有 DNS/DNs/Dns/dns/Dns…… 的 行 并 打 
印 。 例 如 : 


# grep -i dns /etc/passwd 
avahi:x:70:70:Avahi mDNS/DNS-SD Stack:/var/run/avahi-daemon:/sbin/nologin 


口 -v 匹配 /etc/passwd 中 “不 ”包含 nologin 的 行 并 打印 。 例 如 : 


# grep -v nologin /etc/passwd 
root:x:0:0:root:/root:/bin/bash 
support:x:1002:1002::/home/support:/bin/bash 


口 ^ 匹配 并 打印 所 有 以 d 开头 的 行 。 例 如 : 


# grep ^d /etc/passwd 
daemon:x:2:2:daemon:/sbin:/sbin/nologin 
dbus:x:81:81:System message bus:/:/sbin/nologin 


(2) awk 

类 UNIX 系统 中 有 强大 的 文本 分 析 工 具 ， 并 拥有 自己 的 语法 , 可 用 
于 较 复杂 的 日 志 分 析 。 其 名 称 来 自 于 作者 : Alfred “Aho”、Peter 
“Weinberger” Brian“Kernighan”。awk 可 以 简单 地 作为 命令 使 用 ， 同 
样 也 是 强大 的 数据 处 理 编程 语言 。 数 据 输入 可 以 是 标准 输入 、 文 件 或 其 
他 命令 的 输入 。 它 逐 行 扫描 输入 ， 寻 找 匹 配 的 特定 模式 行 ， 并 在 匹配 行 
上 完成 操作 ， 并 打印 。 

学 习 使 用 awk 前 必须 明确 “ 域 ”“ 域 分 隔 符 ”概念 。 文 件 中 被 域 分 
隔 符 分 隔 开 的 每 列 字 符 串 称 作 一 个 “ 域 ” 默认 情况 下 以 空格 或 tab 分 
隔 。awk 可 跟踪 域 的 个 数 ， 并 在 内 建 变 量 NF 中 保存 该 值 。 

使 用 空格 或 tab 分 隔 域 〈 默 认 情 况 ) 如 图 5-8 所 示 。 


root:x:0:0:root:/root:/bin/bash 
域 1 


使 用 “:” 分 隔 域 : 
root:x:0:0:root:/root:/bin/bash: 
域 : 1 234; 5 6 7 
使 用 “/” 分 隔 域 : 
root:x:0:0:root:/root:/bin/bash 
域 1 2 3 4!| 


5-8 awk 的 域 分 隔 


相关 命令 : gawk、nawk 


格式 : awk [options] “script’ var=value file(s) 


awk [options] —f scriptfile var=varlue files(s) 


常用 参数 : 


awk 常用 参数 如 表 5-5 所 示 。 
表 5-5 awk 常用 参数 


命令 选项 


描 述 





-F fs or --field-separator fs 


指定 输入 文件 分 隔 符 ，fs 是 一 个 字符 串 或 者 
是 一 个 正则 表达 式 ， 如 -F"" 





-V var=value or --asign var=value 


为 awk_script 设置 变量 





-fscripfile or --file scriptfile 


常用 变量 : 





从 脚本 文件 中 读 取 awk 命令 


awk 常用 变量 如 表 5-6 所 示 。 
表 5-6 awk 常用 变量 

















内 置 变量 描述 
$n 当前 记录 的 第 n 个 字段 ， 字 段 间 由 FS 分 隔 
$0 完整 地 输入 记录 
ARGC 命令 行 参数 个 数 
ARGV 命令 行 参数 排列 
ENVIRON 支持 队列 中 系统 环境 变量 的 使 用 
FILENAME awk 浏览 的 文件 名 
FNR 浏览 文件 的 记录 数 
FS 设置 输入 域 分 隔 符 ， 等 价 于 命令 行 -F 选项 
NF 浏览 记录 的 域 的 个 数 
NR 已 读 的 记录 数 
OFS 输出 域 分 隔 符 
ORS 输出 记录 分 隔 符 
RS 控制 记录 分 隔 符 
常用 运算 符 : 


awk 常用 运算 符 如 表 5-7 所 示 。 
表 5-7 awk 常用 运算 符 





描 





述 





=+= -= *= /= %= ^ 人 一 **= 


赋值 





C 条 件 表达 式 ，Java 三 元 表达 式 













逻辑 或 ,与 


匹配 正则 表达 式 和 不 匹配 正则 表达 式 























运 算 符 描 述 
闫 过 二 关系 运算 符 
十 一 # /多 加 、 减 、 乘 、 除 与 求 余 
- 增加 或 减少 , 作为 前 级 或 后 级 $ 字 段 引 用 ip 
#4==$in 
数组 成 员 
范例 : 


打印 /etc/passwd 第 一 个 域 : 


#awk -F': print $1}' 
root 
daemon 


统计 /etc/passwd: 文 件 名 ,每 行 的 行 号 ,每 行 的 列 数 ， 对 应 的 完整 行 
内 容 : 

# awk -F ‘'{print "filename:" FILENAME ",linenumber:" NR ",columns: 
" NF ",linecontent:"$0}' /etc/passwd 
filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/r 
oot:/bin/bash 
filename:/etc/passwd,linenumber:2,columns:7,linecontent:bin:x:1:1:bin:/bi 
n:/sbin/nologin 
filename:/etc/passwd,linenumber:3,columns:7,linecontent:daemon:x:2:2:d 
aemon:/sbin:/sbin/nologin 
filename:/etc/passwd,linenumber:4,columns:7,linecontent:mail:x:8:12:mail: 
/var/spool/mail:/sbin/nologin 


统计 /etc/passwd 的 账户 人 数 : 


# awk {count++;print $0;} END{print "user count is ", count}' /etc/passwd 
root:x:0:0:root:/root:/bin/bash 


user countis 40 


BEGIN 模块 : 

BEGIN 模块 后 紧 跟 Action 模块 ， 在 awk 处 理 任 何 输入 文件 之 前 执 
行 。 通 常用 于 改变 内 建 变 量 的 值 ， 例 如 : 

域 分 隔 符 (FS) 被 设 为 冒号 ， 输 出 文件 分 隔 符 (OFS) 被 设置 为 制 
表 符 ， 输 出 记录 分 隔 符 《ORS) 被 设置 为 换行 符 。 


# awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n"}Hprint $1,$2,$3} /etc/passwd 
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END 模块 : 

END 不 匹配 任何 的 输入 文件 ， 但 是 执行 动作 块 中 的 所 有 动作 ， 它 
在 整个 输入 文件 处 理 完成 后 被 执行 。 例 如 : 

上 式 将 打印 所 有 被 处 理 的 记录 数 。 


# awk 'END{print "The number of records is" NR} test 


AWK 流程 控制 : 
条 件 : f 语 句 : if(expression){actionl}else{action2}， 例 如 : 
产生 10 个 数 seq 10， 通 过 if 语 句 判 断 是 单数 还 是 双 数 。 


# seq 10 lawk "fif($0%2==0){print $0" 是 双 数 "}else{print $0" 是 单数 "}}' 
循环 : while 语句 : while(expression){action}， 例 如 : 

使 用 : 分 割 /etc/passwd， 并 将 每 一 列 前 加 上 列 号 。 

# awk -F: fi=1;while(i<=NF){print i":"$i;i++ }} /etc/passwd 

for 语句 1: for(i=0:i<=10:i++){action}， 例 如 : 

使 用 : 分 割 /etc/passwd， 并 将 每 一 列 前 加 上 列 号 。 

# awk -F: '{for(i=1;i<=NF;i++){fprint i":"$i}}' /etc/passwd 

for 语句 2: or(value in array){action}， 例 如 : 

统计 /etc/passwd 第 5 列 的 值 及 对 应 的 个 数 。 

# awk -F: {a[$5]++}END{for(i in a)if(il=""){print i":"a[i]}}' /etc/passwd 
数组 : awk 中 的 数组 的 下 标 可 以 是 数字 和 字母 , 称 为 关联 数组 , 例如 : 


array[1]= "Baggio" 
array[2]= "Batistuta”" 
array["name"]="Hercules" 


重 定向 : 使 用 shell 的 重 定向 符 进行 重 定向 输出 ， 例 如 : 

打印 第 一 个 域 的 值 等 于 100， 则 将 它 输 出 到 100.output 中 。 

# awk '$1= 100 {print $1 > "100.0utput" }' 

管道 ,输出 重 定向 需 用 到 getline 函数 。getline 从 标准 输入 、 管 道 
或 者 当前 正在 处 理 的 文件 之 外 的 其 他 输入 文件 获得 输入 。 它 负责 从 输入 
获得 下 一 行 的 内 容 ， 并 给 NF、NR 和 FNR 等 内 建 变量 赋值 。 例 如 : 

执行 Linux 的 date 命令 , 并 通过 管道 输出 给 getline, 然后 再 将 输出 
赋值 给 自 定义 变量 d， 并 打印 它 。 


# awk'BEGIN{ "date" | getline d; print dy 


awk 内 建 函 数 : 
常用 字符 串 函 数 ， 
awk 常用 字符 串 函 数 如 表 5-8 所 示 。 


表 5-8 awk 常用 字符 串 函数 





函数 格式 描述 
sub(" 要 替换 的 字符 串 "" 蔡 人 
风 刁 的 字 千 玫 们 蔡 换 匹配 到 的 第 一 个 文本 





gsub(" 要 替换 字符 串 "," 蔡 换 
后 字符 串 " ) 


index("a","b") 


开启 全 局 蔡 换 ， 蔡 换文 本 中 所 有 匹配 到 的 字符 串 





返回 字符 串 b 在 字符 串 a 中 开始 的 位 置 





返回 字符 串 s 的 长 度 ， 当 没有 指定 s 时 ， 返 回 $0 
的 长 度 

如 果 正 则 表达 式 T 在 s 中 匹配 到 ， 则 返回 出 现 的 
起 始 位 置 ， 否 则 返回 0 

使 用 sep 将 字符 串 s 分 解 到 数组 a 中 ， 默 认 sep 
为 FS 


length("s") 


match("s","r") 


split(s,a,sep) 





toupper(s) 将 所 有 小 写字 母 转 换 成 大 写字 母 
tolower(s) 将 所 有 大 写字 母 转换 成 小 写字 母 
例如 : 
# echo "hello world" |lawk '{print toupper($0)}' 
数学 函数 : 


awk 常用 数学 函数 如 表 5-9 所 示 。 
表 5-9 awk 常用 数学 函数 























函数 名 称 返 回 值 
atan2(x,y) yx 范围 内 的 余 切 
cos(x) 余弦 函数 
exp(x) 求 客 
int(x) 取 整 
log(x) 自然 对 数 
rand() 随机 数 
sin(x) 正弦 
sqrt(x) 平方 根 
srand(x) xX 是 rand() 函 数 的 种 子 
int(x) 取 整 ， 过 程 没有 舍 入 








rand() 产生 一 个 大 于 等 于 0 而 小 于 1 的 随机 数 


自 定义 函数 : 
awk 可 自 定义 函数 ， 格 式 : 
function 函数 名 (参数 1, 参 数 2,…) {语句 :return 表达 式 }， 例 如 : 


awk 'function sum(a,b){total=a+b;return total}BEGIN{print sum(2,3)}》 


How-to: 


将 一 行 竖 排 的 数据 转换 成 横 排 ， 例 如 : 
# awk '{printf("%s,",$1)}' /etc/passwd 


(3) sed 

一 种 在 线 编辑 器 ,主要 用 来 自动 编辑 一 个 或 多 个 文件 ， 可 简化 对 文 
件 的 反复 操作 ， 可 编写 转换 程序 等 。 

格式 : sed [options] 'command' {script-only-if-no-other-script} [input-file] 

常用 参数 : 

sed 常用 参数 如 表 5-10 所 示 。 
表 5-10 sed 常用 参数 

描 述 

silent 模式 ， 只 打印 经 过 sed 特殊 处 理 行 
指令 列 模式 上 进行 sed 动作 编辑 
将 sed 的 动作 写 在 文件 内 
预 设 基 础 正规 表示 法 语法 
直接 修改 读 取 文件 内 容 ， 不 在 屏幕 打印 





常用 命令 : 
sed 常用 命令 如 表 5-11 所 示 。 


表 5-11 sed 常用 命令 














命令 描述 
a\ 在 当前 行 下 面 插入 文本 
i\ 在 当前 行 上 面 插入 文本 
c\ | 把 选 定 的 行 改 为 新 的 文本 
d | 删除 选择 的 行 
p | 打印 模板 块 的 行 
s 替换 指定 字符 

范例 : 


删除 /tmp/passwd 第 一 行 : 


# sed '1d' /tmp/passwd 
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删除 /tmp/passwd 匹配 行 : 

# sed -i /匹配 字符 串 /d' /tmp/passwd 

在 /tmp/passwd 最 后 一 行 直接 插入 “END”: 

# sed -i'$a END' /tmp/passwd 

替换 /tmp/passwd 中 的 nologin 为 bash， 例 如 : 
# sed -i 's/nologin/bash/g' /tmp/passwd 


(4) head/tail 
head 命令 用 于 查看 具体 文件 的 前 面 几 行 内 容 ，tail 命令 用 于 查看 文 


件 的 后 面 几 行内 容 。 它 们 用 来 显示 开头 或 结尾 某 个 数量 的 文字 区 块 。 


格式 : head [-n] file 

tail [+/-n] [options] file 
范例 ， 
查看 动态 刷新 的 文件 : 
# tail -f /var/log/messages 
匹配 Linux 操作 系统 /etc/passwd 前 10 行 中 含有 “nologin” 的 行 : 
# head -n 10 /etc/passwd | grep nologin 
bin:x:1:1:bin:/bin:/sbin/nologin 
daemon:x:2:2:daemon:/sbin:/sbin/nologin 
adm:x:3:4:adm:/var/adm:/sbin/nologin 
lp:x:4:7:Ilp:/var/spool/lpd:/sbin/nologin 
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin 
Uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin 


3. 正则 表达 式 
绝 大 多 数 日 志 分 析 软 件 均 基于 正则 表达 式 匹 配 字 符 串 。 正 则 表达 式 


概念 来 自 于 神经 学 。 在 最 近 的 六 十 年 中 , 正则 表达 式 逐 渐 从 模糊 而 深奥 
的 数学 概念 ， 发 展 成 为 在 计算 机 各 类 工具 和 软件 包 应 用 中 的 主要 功能 。 


正则 表达 式 是 对 字符 串 操 作 的 一 种 逻辑 公式 , 就 是 用 事先 定义 好 的 


一 些 特 定 字符 及 这 些 特定 字符 的 组 合 ， 组 成 一 个 “规则 字符 串 ” 这 个 
“规则 字符 串 ” 用 来 表达 对 字符 串 的 一 种 过 滤 逻 辑 。 正 则 表达 式 已 经 在 
很 多 软件 中 得 到 广泛 的 应 用 ， 包 括 类 UNIX 操作 系统 、PHP、C#、Java 
等 开发 环境 , 以 及 在 很 多 的 应 用 软件 中 , 都 可 以 看 到 正则 表达 式 的 影子 。 


给 定 一 个 正则 表达 式 和 另 一 个 字符 串 ， 我 们 可 以 达到 如 下 目的 。 
口 给 定 的 字符 串 是 否 符合 正则 表达 式 的 过 滤 逻 辑 ( 称 作 “ 匹 配 ?)。 


口 可 以 通过 正则 表达 式 ， 从 字符 串 中 获取 我 们 想 要 的 特定 部 分 。 
正则 表达 式 的 特点 有 以 下 几 项 。 
口 灵活 性 、 逻 辑 性 和 功能 性 非常 强 。 
口 可 以 迅速 地 用 极 简 单 的 方式 达到 对 字符 串 的 复杂 控制 。 
口 对 于 刚 接触 的 人 来 说 ， 比 较 星 涩 难 懂 。 
下 面 带 大 家 入 正则 表达 式 的 门 。 
(1) 测试 工具 
“ 工 欲 善 其 事 , 必 先 利 其 器 ”, 编写 正则 表达 式 需 要 一 把 称 手 的 “ 兵 
器 ”， 推 荐 RegexBuddy、Regexper、Debuggex， 还 有 一 些 在 线 的 工具 ， 
如 http://tool.oschina.net/regex/。 
(2) 元 字符 
常用 的 元 字符 如 表 5-12 所 示 。 


表 5-12 常用 的 元 字符 











字 符 说 明 
匹配 除 换行 符 以 外 的 任意 字符 
\w 匹配 字母 或 数字 或 下 划 线 或 汉字 
\s 匹配 任意 的 空白 符 
\d 匹配 数字 
\b 匹配 单词 的 开始 或 结束 
^ 匹配 字符 串 的 开始 
$ 匹配 字符 串 的 结束 
例如 ， 匹 配 以 1 开头 的 字符 串 可 表述 为 :^1。 
(3) 字符 簇 


使 用 [] 将 所 需要 匹配 的 字符 括 起 来 的 方法 称 为 字符 簇 。 
例如 ，[a-z]、[A-Z]、[aeiouAEIOU]、[.?!] 等 。 
(4) 限定 符 
常用 的 限定 符 如 表 5-13 所 示 。 
表 5-13 常用 的 限定 符 

说 明 
重复 零 次 或 更 多 次 
重复 一 次 或 更 多 次 
重复 零 次 或 一 次 
重复 mn 次 











重复 n 次 或 更 多 次 








重复 n~m 次 
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例如 ， 匹 配 QQ 号 码 (5~12 位 的 数字 )， 可 表述 为 : \d{5,12}。 

(5) 转 义 符 

当 需 要 查找 ^ 或 $ 时 ， 而 该 字符 自身 为 元 字符 ， 可 以 使 用 “\” 来 取 
消 这 些 字符 的 特殊 意义 。 

例如 ，C:\Windows\\System32 匹配 C:\Windows\System32。 

(6) 选择 符 

当 有 多 种 条 件 时 ， 可 使 用 “|” 将 各 条 件 分 割 开 , 表示 “or” 的 关系 。 

例如 ， 匹 配 首 尾 空白 字符 的 正则 表达 式 : ^\s#|\s*$ 。 





(7) 反 义 符 
匹配 “没有 ” 某 字符 串 。 反 义 符 如 表 5-14 所 示 。 
表 5-14 反 义 符 
字 符 说 明 
\W 匹配 任意 不 是 字母 、 数 字 、 下 划 线 、 汉 字 的 字符 
\S 匹配 任意 不 是 空白 符 的 字符 
\D 匹配 任意 非 数字 的 字符 
\B 匹配 不 是 单词 开头 或 结束 的 位 置 
[^abcd] 匹配 除了 a、b、c、d 这 几 个 字母 以 外 的 任意 字符 
例如 ， 匹 配 首尾 空白 字符 的 正则 表达 式 : As+|\s*$ 。 
(8) 注释 符 


正则 中 使 用 (?#comment) 来 包含 注释 。 

例如 ，2[0-4]\d(?#200-249)|25[0-5](?#250-255)I[01]?\d\d?(?#0-199)。 

到 目前 为 止 , 关于 正则 最 基础 的 知识 已 做 了 介绍 , 读者 可 以 看 懂 简 
单 的 正则 语句 。 而 复杂 的 正则 语句 需要 更 多 的 正则 知识 及 练习 。 建议 跟 
随 http://www.runoob.com/regexp/regexp-tutorial.html 进一步 学 习 。 

(9) 常用 的 正则 例子 

@ 匹配 邮箱 。 


Mw+([-+JWw+)*@Ww+([- Wr) w+([-.] Ww+)’s 


可 以 匹配 的 字符 串 如 123456@qq.com、123@456.com.cn.org.edu 等 。 
@ 验证 身份 证 号 〈 粗 验 ， 最 好 服务 器 端 调 类 库 再 细 验 证 )。 


^[I1-9]([0-9]{16}1[0-9]{13})[xX0-9]$ 


可 以 匹配 的 例子 ， 如 15 或 者 18 位 的 身份 证 号 ， 支 持 带 X 的 。 
@ 验证 卫 。 


^(25[0-5]I2[0-4][0-9]I[0-1]{1}[0-9]{2JI[1-9]{1}[0-9]{1)I[1-9] 入 .(25[0-5]12[0-4][0 
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-9]I[O-1]{1}[0-9]1{2}I[1-9]{1}[0-9]1{1}I[1-9]10)\.(25[0-S]I2[0-4][0-9]I[0-11{1}[0-9] 
{2}I[1-91{1}[0-91{1}I[1-9]10)\.(25[0-S]I2[0-4][0-9]I[0-11{1}[0-91{2}I[1-9]{1}[0-9] 
{1}1[0-9])$ 


5.2.5 ”日志 规范 与 标准 


在 数据 中 心里 ， 繁 杂 各 异 的 日 志 格式 成 了 日 志 分 析 的 焉 梦 。 可 规范 应 
用 系统 日 志 开发 及 管理 过 程 ， 进 行 精准 日 志 实时 监控 、 提 升 突 发 故障 排 错 
效率 、 提 供 丰富 信息 用 于 大 数据 分 析 、 实 现 应 用 系统 的 安全 审计 功能 。 

出 于 不 同 的 目的 , 业界 流传 多 种 日 志 最 佳 实践 。 其 中 一 部 分 是 针对 
特定 行业 或 日 志 工 具 的 , 而 大 部 分 最 佳 实践 都 是 通用 的 ， 本 处 仅 讨 论 普 
通 文 本 日 志 ， 可 参照 如 下 指标 。 


1. 时 间 截 


时 间 戳 字段 表示 事件 发 生 的 时 刻 。 在 高 并 发 量 的 系统 上 ， 记 录 不 能 
保证 一 定 按时 间 顺 序 写 入 日 志 ， 建 议 每 一 条 日 志 记录 都 应 包含 时 间 戳 。 
格式 如 下 : 


2016-01-03 12:24:01.213 CST 


即 “<4 位 年 份 >-<2 位 月 份 >-<2 位 日 期 >< 空 格 ><24 小 时 制 2 位 
时 >:<2 位 分 >:<2 位 秒 >.<3 位 毫秒 >< 空 格 ><3 位 大 写字 母 时 区 >”。 如果 
能 精确 到 微 秒 或 纳 秒 ， 则 在 毫秒 位 置 后 追加 3 位 或 6 位 数字 。 


2. 严重 级 别 


严重 级 别 表示 事件 的 紧急 程度 ， 根 据 不 同 级 别 做 出 相对 应 的 措施 。 
通常 为 以 下 几 种 。 
口 Fatal 一 一 致命 ,表示 需要 立即 被 处 理 的 系统 级 异常 。 当 该 异常 
发 生 时 ， 表 示 服 务 已 不 可 用 ， 系 统管 理 员 需要 立即 介入 。 
口 Error 一 一 错误 ,该 级 别 也 需要 马上 被 处 理 , 但 是 紧急 程度 要 低 
于 Fatal 级 别 。 
口 Wam 一 一 警告 ， 该 级 别 表示 系统 可 能 出 现 问题 ， 也 可 能 没有 ， 
如 网 络 的 波动 等 。 
口 Info 一 一 记录 系统 的 正常 运行 状态 , 例如 某 个 子 系统 的 初始 化 ， 
某 个 请 求 的 成 功 执行 等 等 。 
口 Debug 一 一 调试 级 别 ， 该 级 别 记录 了 某 一 个 操作 每 一 步 的 执行 
过 程 ， 可 以 准确 定位 是 何 种 操作 、 何 种 参数 、 何 种 顺序 导致 了 
某 种 错误 的 发 生 ， 可 以 保证 在 不 用 重 现 错误 的 情况 下 ， 也 可 以 
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通过 该 级 别 日 志 对 问题 进行 诊断 。 
3. 分 隔 符 


分 隔 符 是 一 个 字符 串 ， 出 现在 字段 的 前 后 ,用 于 在 一 个 记录 中 将 一 
个 字段 与 前 后 相 邻 字段 区 分 开 。 分 隔 符 的 作用 是 更 容易 区 分 开 字 段 , 无 
论 对 人 还 是 日 志 监 控 工 具 。 常 用 的 如 空格 、 分 号 〈; )、 竖 杠 〈|) 等 。 


4. 日 志 编 码 


在 计算 机 技术 发 展 的 早期 ， 如 ASCII (1963 年 ) 和 EBCDIC (1964 
年 ) 这 样 的 字符 集 逐 渐 成 为 标准 。 基 本 的 ASCII 字符 集 共 有 128 个 字符 ， 
其 中 有 96 个 可 打印 字符 ， 包 括 常用 的 字母 、 数 字 、 标 点 符号 等 ， 另 外 
还 有 32 个 控制 字符 。 为 了 扩充 ASCII 编码 ， 以 用 于 显示 本 国 的 语言 ， 
不 同 的 国家 和 地 区 制定 了 不 同 的 标准 ， 由 此 产生 了 GB2312、BIG5、JIS 
等 各 自 的 编码 标准 。 可 简单 理解 如 下 。 
口 ASCII 编码 : 用 来 表示 英文 ， 它 使 用 1 个 字 节 表 示 ， 其 中 第 一 
位 规定 为 0， 其 他 7 位 存储 数据 ， 一 共 可 以 表示 128 个 字符 。 
口 “拓展 ASCII 编码 : 用 于 表示 更 多 的 欧洲 文字 ,用 8 个 位 存储 数 
据 ， 一 共 可 以 表示 256 个 字符 。 
口 GBK/GB2312/GB18030: 表示 汉字 。GBK/GB2312 表示 简体 中 
文 ，GB18030 表示 繁体 中 文 。 
口 Unicode 编码 : 包含 世界 上 所 有 的 字符 ， 是 一 个 字符 集 。 
口 UTF-8: 是 Unicode 字符 的 实现 方式 之 一 ， 它 使 用 1~4 个 字符 
表示 一 个 符号 ， 根 据 不 同 的 符号 变化 字 节 长 度 。 
5. 换行 符 
回 车 (carriage return) 符号 和 换行 (line feed) 符号 产生 的 背景 
及 二 者 的 区 别 
在 计算 机 出 现 之 前 ， 有 一 种 叫 作 电 传 打字 机 (Teletype Model 33) 
的 玩意 ， 每 秒 钟 可 以 打 10 个 字符 。 但 是 它 有 一 个 问题 ， 就 是 打 完 一 行 
换行 时 ， 要 用 去 0.2 秒 ， 正 好 可 以 打 两 个 字符 。 要 是 在 这 0.2 秒 里 ， 又 
有 新 的 字符 传 过 来 ， 那 么 这 个 字符 将 丢失 。 
于 是 , 研制 人 员 想 了 一 个 办 法 解决 这 个 问题 , 就 是 在 每 行 后 面 加 两 
个 表示 结束 的 字符 。 一 个 叫 作 “ 回 车 ”告诉 打字 机 将 打印 头 定位 在 左 
边界 ; 另 一 个 叫 作 “换行 ”告诉 打字 机 将 纸 向 下 移 一 行 。 
UNIX 系统 里 ， 每 行 结 尾 只 有 “< 换行 >”， 即 “\n” Windows 系统 
里 ， 每 行 结尾 是 “< 回 车 >< 换 行 >”， 即 “\rn”; Mac 系统 里 ， 每 行 结尾 
是 “< 回 车 >”。 一 个 直接 的 后 果 是 ， 如 果 UNIX/Mac 系统 下 的 文件 在 
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Windows 里 打开 的 话 ， 所 有 文字 会 变 成 一 行 ; 而 Windows 里 的 文件 在 
UNIX/Mac 下 打开 的 话 ， 在 每 行 的 结尾 可 能 会 多 出 一 个 ^M 符号 。 


6. 日 志 轮 转 


日 志 轮转 是 活动 日 志文 件 被 移动 到 存档 副本 , 并 为 应 用 程序 创建 一 
个 新 的 空白 文件 ， 然 后 开始 写 入 。 本 技术 在 日 志保 存 多 个 备份 ,用 于 短 
期 分 析 和 场 外 存档 及 存储 。 利 于 后 期 分 析 和 文件 系统 空间 管理 。 日 志 轮 
转 规则 常 有 如 下 3 种 。 

口 日 志文 件 基 于 某 个 时 间 周 期 轮转 , 例如 每 小 时 、 每 天 、 每 月 等 。 

口 日 志文 件 在 达到 某 个 预定 大 小 时 轮转 , 例如 10MB、100MB 等 。 

口 结合 了 基于 时 间 和 基于 大 小 的 方案 。 日 志 根 据 事件 存档 ， 但 每 

个 日 志 限 制 在 某 个 预定 大 小 内 。 

Logrotate 是 类 UNIX 操作 系统 的 一 款 古 老 的 日 志 轮转 工具 。 许 多 版 
本 的 Linux 发 行 版 都 默认 安装 。 文 件 〈 目 录 也 是 文件 ) 里 存储 了 文件 名 
和 对 应 的 inode 编号 。 通 过 这 个 inode 编号 可 以 查 到 文件 的 元 数据 和 文 
件 内 容 。 文 件 的 元 数据 有 引用 计数 、 操 作 权 限 、 拥 有 者 ID 、 创 建 时 间 、 
最 后 修改 时 间 等 。 文 件 名 并 不 在 元 数据 里 ， 而 是 在 目录 文件 中 。 因 此 日 
志 轮 转 〈 改 名 、 移 动 ) 不 会 修改 文件 内 容 ， 而 是 修改 文件 目录 。 

inode 解析 如 图 5-9 所 示 。 
EE A 


1076 » 
2083 


» 一 Contents 





17439 abc2 
18973 abc3 
Contents of the directory Inode 
“htest/ table 


5-9 inode 解析 
7. 日 志 权 限 


日 志文 件 的 权限 关系 到 操作 系统 用 户 对 日 志 的 读 写 安全 , 必须 规划 
清晰 。 

此 外 ， 日 志 规 范 中 还 可 以 包括 行 / 字 节 刷新 速度 、 行 字 节 上 限 、 日 
志 报 警 时 间 间 隔 等 指标 。 


5.3 ”日志 分 析 原 理 及 工具 
前 面 小 节 讲 到 了 日 志 产生 一 日 志 传输 一 日 志 存储 一 日 志 分 析 。 但 日 
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志 分 析 仅 涉 及 了 将 日 志 中 的 信息 截取 有 用 的 部 分 , 本 节 将 对 日 志 价值 做 
进一步 挖掘 。 


5.3.1 日 志 分 析 原 理 


日 志 分 析 的 主要 技术 包括 分 类 与 预测 、 聚 类 、 离 群 点 检测 、 关 联 规 
则 、 序 列 分 析 等 ， 可 参照 本 书 前 几 章 内 容 。 本 节 介 绍 R 语言 ， 官 网 为 
http://www.r-project.org， 日 志 分 析 直 接 引 用 R 语言 的 具体 工具 包 。 

R 是 自由 软件 ， 是 一 套 完整 的 数据 处 理 、 计 算 和 制图 软件 系统 。 其 
功能 包括 : 数据 存储 和 处 理 系 统 ， 数 组 运算 工具 (其 向 量 、 和 矩阵 运算 方 
面 功 能 尤其 强大 ); 完整 连贯 的 统计 分 析 工 具 ; 优秀 的 统计 制图 功能 ; 
简便 而 强大 的 编程 语言 : 可 操纵 数据 的 输入 和 输出 , 可 实现 分 支 、 循环， 
用 户 可 自 定义 功能 。 

本 书 无 法 穷尽 R 语言 的 精髓 , 仅 供 大 家 初步 认识 R(R 语言 具体 使 
用 方法 推荐 阅读 : http://www.w3cschool.cm/r/)。 


1. R 的 数据 接口 


目前 R 语言 支持 包括 CSV、Excel、 二 进 制 文件 、XML 文件 、JSON 
文件 、Web 数据 、 数 据 库 (MySQL、Oracle、SQL Server) 等 数据 源 。 
本 处 以 R 连接 本 地 SQL Server 数据 库 配 置 为 例 。 
配置 数据 源 
(1) 单 击 控制 面板 一 管理 工具 一 ODBC 数据 源 (32 位 /64 位 )， 打 
开 “ODBC 数据 源 管理 程序 ”对 话 框 ， 如 图 5-10 所 示 。 
局 0D8C 数 迫 源 管理 程序 (32 位 ) x 


用 户 DSN 系统 DSN 文件 DSN 于 动 入 序 ”中路 。 连接 地 关于 





用 户 数 这 源 (U): 
Ee 于 和 。 生动 Ez M0(D).. 
| 32 位 Microsoft Access dBASE Driver (*.dbf, “nd 
Excel Files 32/64 位 Microsoft Excel Driv EC 出 除 (R) 
MS Access Database 32/64 位 Microsoft Access Driver (mdb “acci 让 
Visio Database Samples 32 位 Microsoft Access Driver (mdb) 
醒 重 (O. 


< > 





一 0D8C 用 户 数 丘 基 他 信 有 关 各 何 与 搓 寺 提 数 大 提供 程序 壬 按 的 信息 . 用户 数 次 天 只 对 您 可 见 , 而且 只 能 在 
国生。 此 HL 上 全 用- 


[CC ]| 到 BBA) 各 有 
图 5-10 配置 数据 源 1 
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(2) 单 击 “ 添 加 ”按钮 弹出 “创建 新 数据 源 ” 对 话 框 ， 选 中 SQL 
Server， 单 击 “ 完 成 ”按钮 ， 如 图 5-11 所 示 。 


创建 新 数据 源 x 


选择 多 想 为 其 安装 数据 源 的 驱动 程序 (S)。 


名 称 i 
wb 3 Microsoft Excel Driver (ds *xdsx, “xdsm “axdsb) 


Microsoft Excel-Treiber ["xls) 
Microsoft ODBC for Oracle 
Microsoft Paradox Driver (db ) 
Microsoft Paradox-Treiber (“db ) 
Microsoft Text Driver ("bd “.csv) 
Microsoft Text-Treiber ("bt *.csv) 





< > 





“Es i 
图 5-11 配置 数据 源 2 
(3) 输入 “名 称 ”“ 描 述 ”“ 服 务 器 ”， 本 例 中 使 用 当前 服务 器 上 的 
SQL Server， 单 击 “ 下 一 步 ” 按 钮 ， 如 图 5-12 所 示 。 


创建 到 SQL Server 的 新 数据 源 x 


此 庙 导 检 帮 助 建立 一 个 能 用 于 连接 SQL Server 的 ODBC 数 过 源 . 


| 而 生理 用 什么 名 你 来 命 全 数 生源 ? 
| 


| 和 名称 (M): |TEST 





和 各 让 各 何 二 还 此 数 迫 源 ? 
| 3Eit(D): |TEST forR 
| 





生理 连接 时 一 个 SQL Server? 
服务 器 (5): | (local) 














天 (N) > 3 关 
5-12 配置 数据 源 3 


(4) 选中 “使 用 用 户 输入 登录 ID 和 密码 的 SQL Server 验证 ” 单 
选 按钮 ， 填 写 “登录 ID” 和 “密码 ”， 单 击 “ 下 一 步 ” 按 钮 ， 如 图 5-13 
所 示 。 

(5) 选中 “更 改 默认 的 数据 库 为 ” 复 选 框 并 根据 实际 情况 填写 数 
据 库 名 称 ， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 5-14 所 示 。 

(6) 单 击 “ 完 成 ”按钮 ，R 的 数据 接口 配置 完毕 ， 如 图 5-15 所 示 。 
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创建 到 SQL Server 的 新 数 近 源 x 
SQL Server 应 该 如 何 验证 登录 ID 的 真 信 ? 
击 - 口 使 用 网 洁 痘 录 ID 的 Windows NT 验证 (W. 
国 借用 用 户 久 入 茹 录 ID 和 密码 的 SQL Server 验 正 [S).。 


要 更 改 用 于 与 SQL Server 通 汛 的 网 洛 库 , 请 单 去“ 客 广 污 配 下 























图 5-13 配置 数据 源 4 


部 建 到 SQL Server 的 新 蜂 理 x 
Sra»: 
坟 Omms EH 
回合 用 ANSI 引用 RU 


回 人 用 ANSI 的 之 午 、 填 充 及 甘于 (和). 


看 主 SQL Server 不 可 用 . 请 便 天 小 妨 转移 SQL Server(). 


En sles 
图 5-14 配置 数据 源 5 


创建 到 SQL Server 的 新 数 宏 源 x 





回执 行 闻 行 至 宪 可 泽 (P) 
口 当 输 出 货币 、 数 字 、 日 基 和 时 间 对 , 请 使 用 区 域 设 置 (U). 


| 口 将 长 时 间 运 行 的 查询 保存 到 日 志文 件 (S): 


CANUsersVHERCUL~TWppDatsMLocalNTempVQUER' 








长 查询 时 间 (诗人 ) :30000 


口 将 ODBC 欧 动 程序 统计 记录 到 日 志文 件 (O): 
CAUsers\HERCUL~1WAppData\Loca\Temp\sTATS 2 





sm [| mm || ww | 
图 5-15 配置 数据 源 6 
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(7) 单 击 “ 测 试 数据 源 ” 按 钮 进行 测试 ， 如 图 5-16 所 示 。 
ODBC Microsoft SQL Server 去 装 x 


将 按 下 列 配置 创建 新 的 ODBC 数据 源 : 





[Microsoft SQL Server ODBC 强 动 程序 村 本 10.00.14393 


No 
使 用 ANSI 引用 的 标识 符 : Yes 
使 用 ANSI 的 空 值 ， 填 序 和 管 告 : Yes 
数据 加 宰 : No 








到 | 区 习 
图 5-16 配置 数据 源 7 
(8) 测试 成 功 ， 单 击 “ 确 定 ”按钮 ， 如 图 5-17 所 示 。 


SQL Server ODBC 数据 源 油 法 x 


测试 结果 
Microsoft SQL Server ODBC 豫 动 程序 酥 本 10.00.14393 





测试 或 功 !| 
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2. R 的 安装 


此 处 介绍 在 Windows 环境 下 如 何 使 用 R 语言 。 可 登录 https://cran.r- 
project.org/bin/windows/base/ 下 载 R for Windows 安装 包 ， 当 前 版 本 为 
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3.4.1， 如 图 5-18 所 示 。 


R-3.4.1 for Windows (32/64 bit) 


Download R 3.4.1 for Windows (75 negabytes, 32/64 bit) 


Installation and other instructions 
New features in this version 
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按照 默认 配置 安装 即 可 。 安 装 完毕 后 , 可 在 《R 
桌面 上 看 到 如 图 5-19 所 示 的 图 标 。 下 
双击 桌面 图 标 打 开 RGui 连接 SQL Server 3.4.1 
数据 库 ， 第 一 次 使 用 时 需要 安装 RODBC 程序 ”图 5-19 R 的 安装 2 
包 。ODBC， 中 文 意思 是 开放 数据 库 连接 ， 其 英 


文 全 称 是 Open Database Connectivity， 是 开放 服务 结构 中 有 关 数 据 库 的 
一 个 组 成 部 分 ， 它 提供 了 一 组 对 数据 库 访问 的 标准 API (应 用 程序 编程 
接口 )。RODBC 包 ， 顾 名 思 义 ， 就 是 为 R 语言 服务 的 、 操 作 ODBC 的 
包 。 如 未 安装 会 出 现 “ 没 有 "odbcDataSources" 这 个 函数 ”并 报错 。 可 直 


接 使 用 “install.packages” 命 令 安 装 所 需要 的 函数 ， 如 图 5-20 所 示 。 


> odbcDataSources() 
Error in odbcDataSources() : 没有 "odbcDatasources" 这 个 函数 
> Library (RODBC) 
Error in Library (RODBC) : 没有 "Library" 这 个 函数 
> install.packages ("RODBC") 
Warning in install.packages ("RODBC") : 
'lib="C:/Program Files/R/R-3.4.1/library"' 不 可 写 
--- 在 此 加 线 障 段 时 请 选用 cRAN 的 镜子 --- 
试 开 URL'https://mirror.lzu.edu.cn/CRAN/bin/windows/contrib/3.4/RODBC_1.3-15.2zip' 
Content type 'application/zip' length 831635 bytes (812 KB) 
downloaded 812 KB 


程序 包 "RoDac' 打开 成 功 ，MDs 和 检查 也 通过 
下 载 的 二 进 制程 序 包 在 


C:\Users\0ss-linux\AppData\Local\Temp\RtmpH6JsXX\downloaded packages 里 
> library (RODBC) 
> odbcDataSources() 
Excel Files 
"Microsoft Excel Driver (*.xls, *.Xxlsx, *.Xxlsm, *.xlsb)" 
MS Access Database 
"Microsoft Access Driver (*.mdb, *.accdb)" 
Visio Database Samples 
"Microsoft Access Driver (*.mdb)" 
dBASE Files 
"Microsoft Access dBASE Driver (*.dbf, *.ndx, *.mdx)" 
TEST 
"SQL Server" 
> conn=odbcConnect ('TEST' ,uid='sa',pwd="'Pass@123') 
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> library(RODBC) 


> odbcDataSources() # 打 印 数据 源 ， 可 查看 到 有 TEST 的 SQL Server 数据 源 








> conn=odbcConnect(TEST',uid='sa',pwd='******) 。 # 连 接 数据 源 


> result=sqlQuery(conn,'select * from *****") # 执 行 SQL 语句 
> result # 返 回 SQL 查询 数据 
3. R 的 图 表 


图 表 模 块 是 R 中 最 重要 的 功能 模块 ,通过 命令 demo (graphics) 或 
demo (persp) 可 体验 R 图 表 功 能 的 强大 。R 提供 的 多 种 绘图 命令 分 为 
以 下 3 类 。 

口 高 级 图 形 函 数 : 在 图 形 设备 上 产生 一 个 新 的 图 区 ， 它 可 能 包括 

坐标 轴 、 标 签 、 标 题 等 。 

口 低级 图 形 函 数 : 在 一 个 已 经 存在 的 图 上 加 上 更 多 的 图 形 元 素 ， 

如 额外 的 点 、 线 和 标签 。 
口 交互 图 形 函数 : 允许 交互 式 地 用 鼠标 在 一 个 已 经 存在 的 图 上 添 
加 图 形 信息 或 者 提取 图 形 信息 。 


4. R 的 “贡献 包 ” 导 入 


通过 导入 “贡献 包 ”(Contributed Packages) 的 形式 可 扩展 R 的 算 
法 种 类 。 可 登录 https://mirrors.tuna.tsinghua.edu.cn/CRAN/ 下 载 ， 截 至 
2017 年 5 月 CRAN 已 收录 了 各 种 包 10581 个 ， 襄 括 了 绝 大 多 数 经 典 或 
最 新 的 统计 方法 。 

例如 ， 需 要 查找 皮尔 逊 相关 性 〈 也 称 为 皮尔 逊 积 差 相关 性 Pearson 
Correlation )。 用 于 描述 满足 连续 数据 、 正 态 分 布 和 线性 关系 的 两 个 变量 
间 的 相关 性 。 可 登录 CRAN 站 点 , 选择 Packages, 单 击 Table of available 
packages, sorted by name 进入 “贡献 包 ” 列 表 ， 在 页 面 搜索 关键 字 ， 如 
Pearson correlation， 可 找到 如 图 5-21 所 示 的 内 容 。 


al ucuavus su ayainas mauues as vausas umeue 
PCAmixdata Multivariate Analysis of Mixed Data 

pcapPA 了 Parallel Analysis for Ordinal and Numeric Data using Polychoric and Bee with S3 Classes 
maDD Bahnet pra ke Drninrtinn We 
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单 击 pcaPA 超 链 接 进 入 ， 查 看 “Reference manual”PDF 文档 ， 确 
认 是 否 是 自己 需要 的 算法 “贡献 包 ”。 

Windows 下 安装 pcaPA， 输 入 install.packages("pcaPA")， 提 示 是 否 
需要 安装 pcaPA。 输 入 install.packages("pcaPA")， 如 图 5-22 所 示 。 

共享 包 安 装 完毕 。 

可 在 Reference manual 下 载 pcaPA.pdf 查看 贡献 包 的 具体 释义 和 使 
用 方法 。 














D 





基础 一 


> install.packages ("pcapA") 

将 程序 包 安 装 入 *C:/Users/oss-1linux/Documents/R/win-library/3.4" 
(因为 ,1ib* 没有 被 指定 ) 

Warning messages: 

1: package ‘pcapa’ is noc available (for R Versicn 3 
2: Perhaps you mea: 
> insvall.packages ("pe: 
将 程序 包 安 装 入 'C:/Users/oss-linux/Documents/R/win-library/3.4" 

(因为 "1ib' 没 有 被 指定 ) 

还 安装 相依 关系 \stringi’，*magzittr'，'colorspace’, ‘expm’, Repp'’, ‘stringr’, ‘RColorBrewer’, ‘dich$ 











斌 开 URL'https://mirror,.1lzu.edu.cn/CRAN/bin/windows/contrib/3,4/stringi_1.1,5.zip' 
Content type ‘application/zip’ length 14289948 byres (13.6 MB) 
downloaded 13.6 MB 


试 开 URL'https://mirror.1lzu.edu.cn/CRAN/bin/windows/contrib/3.4/magrittr_1.5.zip' 
Content type 'applicacion/zip' lengeh 155410 byces (151 KBS) 
downloaded 151 KB 


试 开 URL'https://mirror.1lzu,edu.cn/CRAN/bin/windows/contrib/3.4/colorspace_1.3-2.2ip' 
Content type 'application/zip' length 447003 bytes (436 KB) 
downloaded 436 KB 


试 开 URL'https://mirror.lzu.edu.cn/CRAN/bin/windows/contrib/3.4/expm_0.999-2.24p' 

程序 包 "ggplot2' 打开 成 功 ，MDs 和 检查 也 通过 

程序 包 ,mc2d" 打开 成 功 ，MD5 和 检查 也 通过 

程序 包 ,afsmisc' 打开 成 功 ，MD5 和 检查 也 通过 

程序 包 'pcaph" 打开 成 功 ，Mps 和 检查 也 通过 

下 载 的 二 进 制程 序 包 在 
Ci\UaeraNoss-linuxNRppDaca\LocalVTenp\RrnpN6JaXXVdownloaded_packages 里 

> 
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5.3.2 日 志 分 析 工 具 


1. 商用 和 开源 日 志 分 析 工 具 


日 志 分 析 工 具 从 其 来 源 可 分 为 商用 和 开源 。 目 前 ， 商 用 日 志 分 析 工 
具 最 著名 的 是 Splunk, 开源 方面 最 著名 的 解决 方案 是 ELK(ElasticSearch+ 
Logstash+ Kibana) 和 Flume。 

Splunk 是 一 款 日 志 托管 管理 工具 ， 主 要 功能 可 概括 如 下 。 

1) 日 志 聚 合 功能 

Splunk 几乎 支持 从 任何 源 实 时 索引 任何 类 型 的 计算 机 日 志 数据 , 包 
括 操 作 系统 、 虚 拟 化 、 应 有 用、 数据库、 网 络 等 信息 ， 如 图 5-23 所 示 。 





XA © 


Logfiles Configurations Messages Traps&Alerts Metrics Saipts&Code Changes Tickets 





一 / / N 、 
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windows LinuxUnix Virtualization Applications Databases 
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2) 搜索 功能 

搜索 是 Splunk 的 核心 功能 之 一 。Splunk 有 自己 的 搜索 语言 一 一 搜 
索 处 理 语 言 (Splunk Search Processing Language)。SPL 包括 了 上 百 条 搜 
索 命令 ， 其 中 大 部 分 包含 多 种 函数 、 参 数 和 子 句 。 详 细 命令 可 查看 : 
http://docs.splunk.com/Documentation/Splunk/latest/SearchReference/SQL 
toSplunk。 

(1) 复杂 事件 关联 : 比较 于 基础 日 志 分 析 工 具 ，Splunk 支持 事件 
间 的 复杂 关联 分 析 ， 目 前 支持 5 种 关联 类 型 。 

(2) 基于 时 间 的 关联 : 用 于 根据 时 间 、 接 近 性 或 距离 来 确定 关系 。 

(3) 基于 交易 的 关联 : 用 于 跟踪 构成 单 次 交易 的 一 系列 相关 事件 ， 
进而 评估 时 间 长 度 、 状 态 或 进行 其 他 分 析 。 

(4) 子 搜索 ;用 于 获取 其 中 一 个 搜索 的 结果 ， 并 在 其 他 搜索 中 使 
用 这 些 结果 。 

(5) 查找 : 用 于 关联 Splunk 以 外 的 外 部 数据 来 源 。 

(6) 连接 : 用 于 支持 类 似 SQL 的 内 部 和 外 部 连接 。 

关联 Splunk 中 的 事件 有 助 于 从 机 器 数据 中 获得 更 丰富 的 分 析 和 洞 
察 力 ， 为 IT 和 业务 提供 更 好 的 可 见 性 。 

3) 可 视 化 和 报表 功能 

通过 GUI Builder 或 命令 行 + 函数 可 创建 可 视 化 报表 , 包括 饼 图 、 柱 
状 图 、 行 列 图 、 计 量 图 等 ， 并 支持 地 图 展示 和 其 他 复杂 报表 。Splunk 
提供 “提包 入 住 ”的 丰富 报表 模板 ， 如 图 5-24 所 示 。 


splunk 











i 一 $15100 





ed 


图 5-24 ”Splunk 支持 的 图 表 案 例 
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4) 告警 提醒 功能 

基于 底层 搜索 , 按 计 划 时 间 匹 配 历史 索引 的 数据 或 实时 导入 Splunk 
的 数据 ， 当 符合 告警 规则 时 触发 告警 。 警 报 的 类 型 有 计划 警报 〈 基 于 历 
史 搜 索 ， 按 照 设 定 的 计划 运行 )、 逐 结果 警报 〈 基 于 实时 搜索 ， 设 定 为 
对 “所 有 时 间 ” 运 行 ) 和 滚动 窗口 警报 〈 基 于 实时 搜索 ， 设 定 在 用 户 定 
义 的 滚动 时 间 窗 口上 运行 )。 

告警 类 型 可 以 是 电子 邮件 、 执 行 脚本 (调用 短信 、 微 信 网 关 等 )、 
RSS 通知 、 汇 总 索引 或 Splunk 主 控 台 报警 管理 器 显示 。 

5) 角色 管理 

Splunk 可 为 用 户 定义 角色 ,根据 角色 的 不 同 限制 访问 控制 ,如 搜索 、 
和 警报、 报告、 仪表 板 和 视图 。Splunk 兼容 LDAP 和 Active Directory， 
还 能 提供 单一 登录 集成 ， 以 启动 对 用 户 凭据 的 传递 身份 验证 ， 并 可 严格 
限制 不 同 角 色 访 问 服务 器 权限 。 


2. 泛 用 和 专用 日 志 分 析 工 具 


Splunk 属于 泛 用 日 志 分 析 工 具 , 即 各 种 类 型 日 志 可 集中 化 管理 ,使 
用 各 类 型 日 志 对 应 的 日 志 分 析 策略 分 类 分 析 。 为 应 对 具体 单一 对 象 的 日 
志 ， 人 们 也 开发 了 专用 的 日 志 分 析 工 具 。 

图 5-25 所 示 为 几 种 业界 较 受 欢迎 的 专用 日 志 分 析 工 具 。 
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其 中 ，System Director (IBM Systems Director) 和 TPC (IBM Total 
Storage Productivity Center Standard Edition ) 并 不 能 算 纯粹 的 日 志 分 析 








工具 ， 但 含有 日 志 分 析 模 块 。 

专用 工具 分 析 深 度 、 广 度 、 性 能 等 均 高 于 泛 用 日 志 分 析 工 具 。 但 在 
数据 中 心中 , 多 种 专用 日 志 分 析 工 具 的 集成 、 维 护 要 复杂 于 泛 用 日 志 分 
析 工 具 。 


5.3.3 ”日 志 分 析 系统 规划 建设 


本 节 介 绍 使 用 ELK (ElasticSearch+Logstash+Kibana) 搭建 一 站 式 
数据 分 析 解 决 方案 。 

Logstash 项 目 诞生 于 2009 年 8 月 2 日 ,用 于 日 志 管 理 。 作 者 是 世 
界 最 著名 的 运 维 工 程 师 Jordan Sissel，Logstash 早期 自 带 简单 的 
Logstash-web 用 于 查看 数据 , 但 其 功能 过 于 简单 , Rashid Khan 使 用 PHP 
编写 了 一 个 更 好 的 Web， 取 名 Kibana， 并 于 2011 年 12 月 11 日 发 布 。 
ElasticSearch 作者 Shay Banon 最 初 的 动机 是 为 正在 学 厨 艺 的 妻子 做 的 
菜谱 搜索 引擎 ，2010 年 正式 发 布 ,是 GitHub 上 最 流行 的 Java 项 目 , 不 
过 不 是 用 来 为 妻子 搜索 菜谱 。ElasticSearch + Logstash + Kibana 成 了 日 
志 分 析 工 具 商 业 软 件 霸主 Splunk 最 有 力 的 竞争 对 手 。2013 年 , Logstash 
被 ElasticSearch 公司 收购 ，ELK stack 正式 成 为 了 官方 用 语 。2015 年 年 
初 ，ElasticSearch 公司 召开 了 第 一 次 全 球 用 户 大 会 Elastic{ON}15, 包括 
eBay、Facebook、NASA JPL、Symantec、Dell 等 都 是 ElasticSearch 的 
用 户 ( 官 网: http://elastic.co)。 

ELK 数据 流 图 如 图 5-26 所 示 。 






| Message 》 C7 ELogstash C> Ealesearch 
u: Tr 
Message 7 二 er 
ol 
eee" C> 车 redis 
| Error-log > | ef ogstash i 
Bindex2 
图 5-26 ”ELK 数据 流 图 


在 需要 收集 日 志 的 所 有 服务 上 部 署 Logstash shipper 用 于 监控 并 过 
滤 收 集 日 志 , 将 过 滤 后 的 内 容 发 送 到 Redis， 然 后 Logstash indexer 将 日 
志 收 集 在 一 起 交 给 全 文 搜索 服务 ElasticSearch， 可 以 用 ElasticSearch 进 


行 自 定义 搜索 ， 通 过 Kibana 来 结合 自 定 义 搜索 进行 页 面 展示 。 

本 节 简 单 介 绍 ELK 各 组 件 的 安装 部 署 。 

到 目前 为 止 , 本 章 已 介绍 了 日 志 相 关 的 基本 知识 及 产品 。 接 着 请 跟 
随 作 者 搭建 一 套 ELK 单机 的 实验 环境 ， 资 源 如 表 5-15 所 示 。 


表 5-15 实验 环境 配置 





资 源 描 述 
VMware VMware® Workstation 12 
CentOS 6.* 64bit (可 在 http://mirrors.163.com/ 下 载 ) 
CPU: 2 core MEM: 4GB DISK: 40GB 
系统 及 配置 


IP: 192.168.234.111/24 
注 : 需 连通 互联 网 ， 搭 建 yum 源 


注 : 本 实验 需要 一 定 的 基础 技能 ， 如 VMware 使 用 、CentOS 部 署 
及 操作 、yum 源 搭建 等 。 为 尽量 减少 搭建 中 的 麻烦 , 本 实验 操作 使 用 root 
用 户 rpm 包 安 装 。 


1. 下 载 ELK 安装 包 


登录 到 https://www.elastic.co/downloads 下 载 elasticsearch*.rpm、 
kibana*.rpm 和 logstash*.rpm 安装 包 ， 页 面 如 图 5-27 所 示 。 
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2. 搭建 yum 源 


将 centos 系统 镜像 挂 载 在 /media/CentOS_6.6_Final 上 


# df -h 

Filesystem Size Used Avail Use% Mounted on 

/dev/sr0 4.4G 4.4G 0 100% /media/CentOS_6.6_Final 
# cd /etc/yum.repos.d/ 

# mkdir tmp 

#mv*tmp 


# vi centos.repo # 将 如 下 配置 写 入 到 centos.repo 


[centos] 

name=centos 
baseurl=file:///media/CentOS_6.6_Final 
enabled=1 

gpgcheck=0 


# rpm -ivh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8. 
noarch.rpm # 安 装 EPEL 扩展 源 

#1s /etc/yum.repos.d/ 

centos.repo epel.repo epel-testing.repo redhat.repo tmp 

# yum clean all&& yum list # 重 建 yum 缓存 


3. 安装 ELK 组 件 


# yum install -y redis java-1.8.0-openjdk nginx firefox 

# cd /tmp # 将 安装 介质 上 传 到 /tmp 目录 

#1s /tmp 

elasticsearch-5.4.0.rpm kibana-5.4.0-x86_64.rpm logstash-5.4.0.rpm ...... 
# rpm -ivh elasticsearch-5.4.0.rpm # 安 装 elasticsearch 

# rpm -ivh kibana-5.4.0-x86_64.rpm # 安 装 kibana 

# rpm -ivh logstash-5.4.0.rpm # 安 装 logstash 


4. 配置 ELK 


# mkdir /root/ELK 
# cd /root/ELK 
# mkdir conf 
#vi ./conf/client.conf # 将 如 下 配置 写 入 client.conf 
input { 
file{ 
add_field => {"Local_Host" => "nginx2"} 
type => "nginx_access" 
path => ["/var/log/nginx/access.log"] 
codec => json { 
charset => "UTF-8" 


b 
b 
output { 
redis { 
host => "127.0.0.1" 
data_type => "list” 
key => "logstash:redis" 


} 
# vi server.conf # 将 如 下 配置 写 入 server.conf 
input { 
redis { 
host => '127.0.0.1" 
data_type => "list" 
port => "6379" 
key => 'logstash:redis’ 
type => "redis-input 
J 
} 
output { 
elasticsearch { 
hosts => ["localhost:9200"] 


} 
ji 

# vi /etc/nginx/nginx.conf # 修 改 配置 文件 
http { 
# 注释 掉 如 下 行 
= log format main '$remote_addr - $remote_user [$time_local] 
"$request"' 
# '$status $body_bytes_sent "$http_referer"' 
# "S$http_user_agent" "$http_x_forwarded_for"; 


# access_log /var/log/nginx/access.log main; 

# 在 后 面 追加 如 下 行 

log_format json '{"@timestamp":"$time_iso8601"," 
"@version":"1"," 
"host":"$server_addr"," 
"client":"$remote_addr"," 
"size":$body_bytes_sent, 
"responsetime":$request_time, 
"domain":"$host"," 
wurl":"Suri 
"status":"$status"}’; 

access log /var/log/nginx/access.log json; 





5. 启动 ELK 组 件 


# /etc/init.d/elasticsearch start # 启 动 elasticsearch 

Starting elasticsearch: [OK] 
# /etc/rc.d/init.d/kibana start # 启 动 kibana 

kibana started 

# /usr/share/logstash/bin/logstash -f /root/ELK/conf/client.conf 

# /usr/share/logstash/bin/logstash -f /root/ELK/conf/server.conf 
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6. 登录 kibana 
登录 http://127.0.0.1:5601 访问 kibana， 如 图 5-28 所 示 。 
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Management / Kibana 


Index Patterns Saved Objects Advanced Settings 


Configure an index pattern 

In order to use Kibana you must configure at least one Index pattern. Index patterns are used to 
Identify the Elasticsearch Index to run search and analytics against They are also used to configure 
fields. 





Index name or pattern 
Patterns allow you to define dynamlc Index names using * as a wlldcard, Example:logstash-* 


logstash-* 
回 Index contains time-based events 


Time-field name @@ miresh ed 


CC Expand index pattern when searching 


With this optlon selected, searches agalnst any time-based Index Pattern that contains a 
wildcard will automatically be expanded to query only the Indices thar contaln data within the 
currently selected time range. 
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目前 为 止 ， 基 础 的 ELK 环境 已 经 安装 配置 完毕 。 

ELK 的 具体 配置 使 用 请 参见 以 下 网 址 。 

口 ELK 官网 : https://www.elastic.co/。 

口 ELK 官网 文档 : https://www.elastic.co/guide/index.html 。 

口 ELK 中 文 手册 : http://kibana.logstash.es/content/elasticsearch/ 








monitor/logging.html 


人 5.4 ”日志 挖掘 应 用 


5.4.1 ”安全 运 维 


日 志 技 术 可 以 记录 下 系统 所 产生 的 所 有 行为 , 并 按照 某 种 规范 表达 
出 来 , 已 经 广泛 并 有 效 地 应 用 到 系统 的 安全 运 维 上 。 通过 日 志 中 记录 的 
事件 信息 并 进一步 挖掘 分 析 ， 可 以 帮助 我 们 进行 资源 管理 、 系 统 排 错 、 
性 能 优化 、 入 侵 检测 ， 在 某 些 情 况 下 还 可 以 定位 人 员 责 任 ， 进 行 取证 和 
审计 。 实现 问题 实时 告警 、 及 时 预测 , 可 以 帮助 安全 运 维 工作 变 得 简单 、 
有 序 ， 进 一 步 保障 信息 系统 的 稳定 性 和 健壮 性 。 
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5.4.2 ”系统 健康 分 析 


通过 用 户 访问 日 志 , 采取 每 隔 5 分 钟 统计 发 送 心跳 的 用 户 数 量 , 来 
计算 系统 的 有 效 在 线 用 户 ， 如 图 5-29 所 示 。 而 通过 监控 在 线 用 户 量 的 
变化 , 如 在 特定 时 间 是 否 超过 了 阀 值 范围 , 则 实现 了 对 系统 整体 的 监控 ， 
如 因 网 络 、 系 统 、 应 用 的 故障 或 者 业务 原因 导致 了 在 线 用 户 数 量 的 波动 ， 
都 能 第 一 时 间 发 现 。 

本 币 在 线 用 户 数 时 序 图 


3,000 


2,000 


在 线 用 户 数 


1,000 


8:00 12:00 16:00 
11/2 周一) 
2015 

时 间 


图 5-29 ”在 线 用 户 数 时 序 图 
通过 分 析 交 易 日 志 , 可 以 计算 各 市 场 或 者 总 市 场 的 交易 量 走势 ， 并 
且 通 过 配置 定时 任务 ， 每 天 计算 前 30 天 的 平均 量 〈 排 除 节假日 )， 通 
过 当日 和 历史 均线 的 对 比 ， 进 行 量化 监控 和 比较 ， 及 时 发 现 异 常 ， 如 
图 5-30 所 示 《〈 实 线 表 示 当 天 交易 笔 数 ， 虚 线 表 示 历 史 数值 )。 


当日 本 币 市 场 质押 式 回 购 交 易 时 序 图 几 种 前 
400 
200 we 
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1172 (周一 ) 


-time 
一 当前 交易 数 …… 历史 平均 值 
图 5-30 ”交易 时 序 图 


通过 对 Web 访问 日 志 的 分 析 ， 可 以 获取 IP 地 址 、 耗 时 和 “URL 
数据 。 

选取 一 个 基准 文件 A。 通 过 限定 对 该 文件 A 下 载 情况 的 搜索 ， 结 
合用 户 IP 地 址 和 接 入 方式 以 及 机 构 的 对 应 关系 ， 可 以 进一步 得 出 接 入 
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方式 (不同 网 络 情况 ) 的 网 络 下 载 延迟 统计 ， 以 及 分 机 构 、 分 地 区 、 分 
具体 卫 地 址 的 网 络 延 迟 情况 ， 如 图 5-31 所 示 。 用 户 在 接 入 过 程 中 ， 由 
负载 均衡 设备 来 分 配 不 同 的 机 器 ,通过 对 不 同 机 器 的 访问 量 的 对 比 ， 也 
可 以 得 到 负载 均衡 设备 的 工作 分 配 情 况 。 





1 访问 数 分 析 铅 ” 和 v| 圭 
人 ~ 
请 求 总 数 ne 而 源 IP 煞 着 。 平均 请 求 数 ne 前 平均 耗 时 二 
1356609 2486 546 591.50 ms 
请 求 总 量 时 施 图 乾 
30000 
20000 
10005 
00 400 00 1200 1600 
THMz 哆 -) 
2005 
PrMeDiDO1 MM PRMSDLOO2 MM PRMEDLDOS BM FRMEDLDO4 
Qi 
斋 |Pp 获 时 序 图 
区 -一 一 
Rs re 
5 En eon 


5-31 ”Web 响应 延迟 
5.4.3 ”用 户 行为 分 析 


在 应 用 系统 的 访问 日 志 中 ， 每 次 客户 端 发 起 的 请 求 都 记录 了 用 户 
ID、 具 体 功能 点 等 信息 ， 通 过 该 日 志 数据 ， 结 合用 户 ID、 机 构 名 称 、 
机 构 类 型 、 功 能 点 说 明 等 数据 ， 就 可 以 从 不 同 维度 去 查询 、 统 计 用 户 的 
行为 特征 ， 如 图 5-32 所 示 〈 虚 线 表示 报价 操作 )。 
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5-32 用户 行 为 分 析 
例如 ,可 以 查询 指定 用 户 的 一 天 之 中 所 有 功能 的 操作 情况 ,得 出 该 


实战 日 志 的 挖掘 与 应 上 
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用 户 的 行为 偏好 和 角色 属性 ， 如 图 5-32 中 ， 不 同类 型 的 操作 用 不 同 颜 
色 的 线 进行 标识 ， 最 明显 的 操作 是 报价 操作 (虚线 )， 且 该 用 户 的 这 项 
操作 几乎 都 在 上 午 完成 ， 下 午 很 少 在 使 用 。 

通过 用 户 分析 结 果 , 可 以 针对 性 地 设计 测试 案例 ,使 得 测试 案例 更 
贴近 于 用 户 的 真实 行为 , 也 可 以 评估 每 个 功能 点 的 使 用 情况 和 响应 ,将 
主要 资源 投入 在 重点 功能 的 研发 中 。 可 以 通过 统计 登录 和 登 出 情况 ， 判 
断 用 户 的 行为 是 否 出 现 异 常 〈 见 图 5-33)， 也 可 以 统计 用 户 的 登录 和 登 
出 情况 〈 见 图 5-34)。 
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图 5-33 ”特定 用 户 具体 行为 分 布 
CSTP 用 户 登 入 和 登 出 次 数 统计 几 种 前 

用 户 名 登入 次 数 登 出 次 数 

stmg499901 1425 | | 1425 四 

htzq979503 21 20 


shyh603301 16 16 
jyh989001 7 7 
hryd903401 

cx)j989301 2 2 


dhzq367701 2 1 
5-34 ”用 户 登录 情况 
5.4.4 ”业务 分 析 设 计 


数据 在 收集 进来 之 后 , 除了 已 经 定义 好 的 统计 分 析 功 能 之 外 ,还 可 
以 使 用 该 平台 进行 实时 快速 地 自 定义 查询 和 处 理 〈 见 图 5-35)， 通 过 使 
用 Splunk 定义 的 数据 查询 语言 ， 可 以 快速 地 实现 各 种 逻辑 条 件 查询 、 
数据 排序 、 数 据 比 较 、 数 据 计数 等 功能 ， 而 不 需要 进行 额外 的 功能 开发 
工作 。 所 有 的 统计 分 析 都 可 以 实时 在 线 进行 ,不 影响 应 用 系统 功能 ， 也 
不 用 再 导出 数据 进行 事后 分 析 。 

数据 的 查询 统计 结果 可 以 以 折线 图 、 饼 图 、 散 点 图 等 丰富 的 可 视 化 
图 形 的 方式 进行 展示 ， 从 而 实现 信息 的 有 效 传达 , 便于 使 用 人 员 更 快 地 
找 出 有 效 数 据 ， 如 图 5-36 所 示 。 
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图 5-35 ”数据 的 检索 
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型 区域 

是 列 
至 栏 
参 讲 图 

散 点 图 
只 气泡 图 
42 单 值 
(5 径 向 仪表 
和 塞 尺 
和 标记 规 
9 映射 


图 5-36 可 视 化 展示 方式 


5.5 日 志 分 析 挖 掘 实例 
监控 及 日 志 数 据 流 图 如 图 5-37 所 示 。 
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图 5-37 ”监控 及 日 志 数 据 流 图 
以 某 大 型 金融 机 构 为 例 ， 其 日 志 分 析 功 能 搭建 思路 可 以 概括 如 下 。 
1. 专 有 专用 
如 有 专用 日 志 分 析 软 件 就 使 用 专用 的 。 专 用 日 志 分 析 工 具 在 分 析 准 
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确 性 、 复 杂 度 、 效 率 等 方面 均 高 于 泛 用 软件 。 例 如 ，H3C 的 iMC 用 于 
网 络 设备 监控 ，TPC 用 于 存储 设备 监控 。 


2. 没有 泛 用 
如 无 专用 日 志 分 析 软 件 就 使 用 泛 用 的 。 通 过 泛 用 日 志 分 析 工具 配置 


对 应 策略 可 满足 日 常 日 志 分 析 需 求 。 例 如 ，Splunk、IBM ITM LFA 和 
ELK。 


3. 集中 管理 


将 日 志 ( 事 件 ) 集中 管理 。 事 件 集 中 有 利于 监控 集中 运 维 管理 、 
CMDB 事件 丰富 和 事件 关联 分 析 系 统 搭建 。 汇 聚 层 使 用 IBM Netcool/ 
Omnibus 集成 各 功能 模块 事件 是 个 好 的 选择 ，Omnibus 是 业界 公认 的 最 
佳 事件 集中 平台 。 


4. 关联 挖掘 


基于 配置 管理 库 的 事件 大 数据 挖掘 。 通 过 数据 挖掘 软件 ， 发 现 事件 间 
的 关联 关系 ， 有 利于 智能 运 维和 事件 预测 。IBM 智能 运 维 思 想 值得 借鉴 。 
数据 关联 实现 主动 运 维 如 图 5-38 所 示 。 


现 测 式 维护 (Predict-ang-Act) 
. 和 析 及 人 工 智能 


运行 改变 “维护 调式 优化 












基于 状态 的 维护 
| 有 J 的 信 高 | 民 带 {Sense-and:Respond) 
监控 系统 健康 


“工作 管理 
监控 异常 “提高 规划 和 证 列 的 能 力 


| 系统 区 


应 用 异常 


一 一 | 故障 


， ” 量 小 化 成 本 
， 可 规划 的 宕 机 时 间 
， 高 服务 水 平 


性 能 


容 户 价值 
。 更 和 的 计划 性 维护 
。 更 长 的 人 力 成 本 

。 更 长 的 系统 服务 时 间 
。 更 高 的 服务 水 平 





“高 读本 
“最 长 的 宕 机 时 司 
， 芷 朋 务 水 平 





天 | TT [2 


5-38 ”数据 关联 实现 主动 运 维 


5. 商用 一 开源 


以 大 型 商用 软件 起 步 ， 过 渡 到 开源 软件 。 精 英 科技 代 表 的 商业 软件 
在 起 步 阶段 在 设计 思想 、 技 术 实 力 、 编 码 质量 等 方面 是 领先 的 ; 随 着 时 
间 推 移 ， 群 众 科技 代表 的 开源 软件 奋起 逆 柳 ， 技术 差距 不 断 缩小 ， 且 软 
件 费 用 较 商 业 软 件 大 幅 削 减 ,透明 开源 的 代码 更 利于 深度 客 制 化 。 目 前， 
该 机 构 就 在 做 商业 软件 IBM ITM 监控 转向 开源 软件 Zabbix 的 改造 ; 开 
源 软件 ELK 也 在 逐步 走向 前 台 。 























5.6 ”作业 与 练习 


1. 使 用 数据 库存 储 日 志 ， 数 据 库 系统 提供 了 丰富 的 接口 ， 能 否 方 
便 地 开发 日 志 分 析 前 端 工 具 ? 
2. 类 UNIX 系统 中 Syslog 传输 日 志 ， 日志 服务 器 是 使 用 向 客户 端 
“ 拉 ” 取 日 志 的 形式 传输 日 志 吗 ? 
3. 下 列 哪 项 不 是 日 志 处 理 生命 周期 的 阶段 ? 《 ) 
A. 传输 日 志 B. 克隆 日 志 
C. 存储 日 志 D. 分 析 日 志 
4. 下 列 哪 项 正则 表达 式 可 用 于 匹配 中 国 邮 政 编码 ? ( )( 注 : 
6 位 数字 ) 
A. [1-9]d{5}(71d) B. [1-9]d{6}(?!d) 
C. d{3}-d{8}d{4}-d{7} D. d{15}ld{18} 
5. 在 CentOS 操作 系统 上 使 用 awk、grep 等 命令 匹配 /etc/password 
中 含有 nologin 的 行 ， 参 照 本 章 5.3.3 节 ， 使 用 VMware Workstation 安 
装 CentOS 操作 系统 , 搭建 ELK 服务 器 端 应 用 , 并 自行 搜索 相关 技术 文 
档 ， 深 入 了 解 、 使 用 ELK 工具 分 析 日 志 。 
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志 的 挖掘 与 应 用 


数据 控 据 应 用 案例 


数据 挖掘 发 展 至 今 , 已 不 只 是 停留 在 书本 上 的 理论 , 而 是 已 经 在 各 
行 各 业 有 了 广泛 的 应 用 场景 , 产生 了 实际 的 经 济 价值 和 社会 价值 。 除了 
耳熟能详 的 啤酒 尿布 摆 在 一 起 的 案例 之 外 ， 在 电力 、 金 融 、 科 技 、 电 信 
等 各 个 行业 都 有 鲜 活 的 案例 , 例如 ,电力 电 网 运行 中 通过 数据 挖掘 智能 
监控 设备 状态 ; 银行 通过 数据 挖掘 对 客户 信用 进行 评分 , 评价 贷款 风险 ; 
在 证 券 行业 预测 股票 价格 的 走势 规律 ; 在 电信 行业 , 通过 对 客户 的 分 群 ， 
进行 针对 性 的 智能 营销 。 本章 将 详细 讲解 电力 行业 电网 设备 智能 监控 中 
采用 大 数据 挖掘 技术 的 实现 方法 和 过 程 。 此 外 ,还 对 一 些 其 他 行业 的 典 
型 案例 做 了 介绍 ， 让 读者 充分 理解 和 体会 到 数据 挖掘 的 应 用 和 意义 。 


6.1 电力 行业 采用 聚 类 方法 进行 主 变 油 温 分 析 
6.1.1 ”需求 背景 及 采用 的 大 数据 分 析 方 法 


电力 系统 中 的 重要 设备 有 很 多 ， 如 油 浸 式 变压器 ,其 运行 是 否 正 常 
将 影响 到 电网 能 否 安全 稳定 运行 , 对 其 运行 的 监控 尤为 重要 。 而 现 有 的 
变压器 异常 状态 的 识别 方法 通用 性 差 、 故 障 发 现 滞后 且 成 本 高 昂 , 无 法 
适应 大 数据 时 代 国 家 电网 的 发 展 。 

在 变压器 运行 的 运行 周期 中 , 油 温 状 态 是 影响 变压器 运行 和 负载 能 
力 的 重要 因素 。 所 以 变压器 油 温 异常 的 甄别 对 变压器 及 线路 的 安全 运行 
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具有 很 高 的 实用 价值 。 为 了 及 时 发 现 变压器 油 温 异常 ， 就 需要 对 变压器 
平时 正常 运行 时 油 温 的 状况 有 清晰 的 了 解 ， 并 作为 比 对 基准 。 

这 里 采用 大 数据 的 方法 ,通过 聚 类 分 析 , 挖掘 出 变压器 正常 运行 的 
油 温 分 布 状况 ， 为 及 时 发 现 油 温 异常 提供 了 判断 依据 。 

将 正常 运行 的 油 温 分 成 几 个 区 间 段 , 分 析 各 区 间 段 的 油 温 出 现 的 次 
数 分 布 ， 并 计算 出 该 区 间 段 的 油 温 次 数 分 布 中 心 点 。 而 根据 中 心 点 的 偏 
离 程度 ， 即 阔 值 作为 设备 异常 的 预 判 是 有 较 大 参考 价值 的 。 


6.1.2 ”大 数据 分 析 方 法 的 实现 过 程 
本 节 将 讲解 通过 聚 类 分 析 计 算 变 压 器 正常 运行 的 油 温 分 布 中 心 点 


的 大 数据 实现 方法 。 
首先 建立 Hadoop/Spark 集群 ， 如 图 6-1 所 示 。 


主 节点 (master) 


10.30.140.12 


从 节点 (slave1) 从 节点 (slave2) 从 节点 (slave3) 


客户 端 (client) 


10.30.182.43 10.30. 2.3 10.30.140.3 10.30.182.10 





6-1 Hadoop/Spark 集群 


在 浏览 器 上 通过 Web 端口 8080 检查 一 下 Spark 的 工作 状态 ， 输 入 
“master:8080” 可 以 看 到 Spark 及 其 3 个 Worker、 运 行 的 应 用 均 工 作 
正常 ， 如 图 6-2 所 示 。 


Spaik ,ss Spark Master at spark:/imaster:7077 








aas Score 
1030238765 ALNE 区 (二 Used) (24 8 GB (1024 0 ME Used) 
0 at NE 态 上 beed 08 (10010 ME Ued) 
1030 140341296 ALNE 杂项 beed) 124.8 G8 (1024 0 NG Ued) 
Running Applications 
Applicaion iD Nome Cores .Memory per Mode Submined Time Use Ste Duration 
app2017TD72123140001 Oo) Spah shet 他 TD 23007 2123 24 NG 0 
Completed Applications 
Application ID me Cores Wemom per Node Sabrined Tom Ue sa Duration 
7 San sl 的 | To 20171WO721 订 六 wt FNSHED as 





图 6-2 Hadoop/Spark 集群 正常 的 工作 状态 
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然后 准备 好 数据 文件 。 
在 slavel 机 上 ， 用 以 下 HDFS 命令 显示 准备 好 的 数据 文件 : 


[root@slave1 spark]# /usr/cstor/hadoop/bin/hdfs dfs -cat /34/in/kmeans_ 
data .txt 


17/11/07 23:15:38 WARN util.NativeCodeLoader: Unable to load native- 
hadoop library for your platform... using builtin-java classes where 
applicable 

0.2 1000 

0.2 900 

0.2 1050 

0.4 1500 

0.4 1450 

0.4 1530 

0.6 2500 

0.6 2430 

0.6 2520 

0.8 2000 

0.8 1960 

0.8 2030 

1.0 1200 

1.0 1160 

1.0 1230 


该 数据 文件 分 成 多 行 ， 每 行 分 别 显示 温度 区 间 〈 经 过 转换 ) 及 其 出 
现 次 数 。 

接 下 来 便 是 在 Spark 集群 上 执行 K-Means 程序 〈 处 理 该 数据 集 ) 。 

在 slavel 机 上 ， 使 用 下 述 命令 ， 进 入 spark-shell 接口 。 


[root@slave1 ~]# /usr/cstor/spark/bin/spark-shell --master spark://master:7077 
scala> 


进入 spark-shell 命令 行 scala 执行 环境 后 ,依次 输入 下 述 scala 代码 ， 
即 完成 模型 训练 。 


import breeze.linalg.{Vector, DenseVector, squaredDistance} 
import org.apache.spark.{SparkConf, SparkContext} 

import org.apache.spark.SparkContext._ 

def parseVector(line: String): Vector[Double] ={ 
DenseVector(line.split(' ').map(_.toDouble)) 

} 定义 方法 Vector， 把 每 行 数据 转换 成 向 量 */ 


def closestPoint(p: Vector[Double], centers: Array[Vector[Double]]): Int = { 
var bestlindex = 0 


var closest = Double.Positivelnfinity 

for (i <- 0 until centers.length) { 

val tempDist = squaredDistance(p, centers(i)) 
if (tempDist < closest) { 

closest = tempDist 

bestindex =i 

} 

} 


bestindex 
} /定义 方法 closestPoint， 找 出 距离 Vector 最 近 的 中 心 点 */ 


val lines = sc.textFile("/34/in/kmeans_data.txt") 

/* 声 明 常 量 实例 lines， 从 数据 文件 读 取 各 行 数据 作为 RDD 的 元 素 */ 

val data = lines.map(parseVector_).cache() /* 声 明 常 量 实例 data， 取 数 并 转 
换 成 向 量 并 缓冲 存储 */ 

val K = "5".tolnt /* 声 明 常 量 实例 K，Kmeans 设置 5 个 聚 类 */ 

val convergeDist = "0.1".toDouble /声明 常量 实例 convergeDist*/ 

val kPoints = data.takeSample(withReplacement = false, K, 42).toArray 
/* 声 明 常 量 实例 kPoints， 取 样 K 个 初始 中 心 点 */ 

var tempDist = 1.0 /* 声 明 变 量 实例 tempDist*/ 

while(tempDist > convergeDist) { 

val closest = data.map (point => (closestPoint(point, kPoints), (point, 1))) 
A* 找 离 point 最 近 的 中 心 点 */ 

val pointStats = closest.reduceByKey{case ((p1, q1), (p2, q2)) => (p1 + p2, 
q1 + q2)} 

val newPoints = pointStats.map {pair => 

(pair._1, pair._2._1* (1.0 / pair._2._2))}.collectAsMap!() 

/声明 常量 实例 newPoints， 并 计算 新 的 中 心 点 */ 

tempDist = 0.0 

for (i <- 0 until K) { 

tempDist += squaredDistance(kPoints(i), newPoints(i)) 

} 

/计算 新 旧 中 心 点 的 距离 六 

for (newP <- newPoints) { 

kPoints(newP._1) = newP._2 


} 


println("Finished iteration (delta = " + tempDist + ")") 


1 


printin("Final centers:") 
kPoints.foreach(printIn) /* 打 印 输出 结果 */ 


6.1.3 ”大 数据 分 析 方 法 的 实现 结果 


U 


完成 使 用 K-Means 算法 对 所 有 样本 进行 聚 类 ， 在 控制 台 上 打印 





心 点 ， 运 行 结 果 如 下 : 


scala> println("Final centers:") 

Final centers: 

DenseVector(0.4, 1493.3333333333333) 
DenseVector(0.5999999999999999, 2483.333333333333) 
DenseVector(0.8, 1996.6666666666665) 
DenseVector(1.0, 1196.6666666666665) 
DenseVector(0.2, 983.3333333333333) 


6.2 ”银行 信贷 评价 
6.2.1 简介 


评估 机 构 会 利用 信用 评分 模型 对 客户 的 信息 进行 量化 分 析 , 从 而 评 
定 客 户 的 信用 等 级 ， 以 更 好 地 控制 风险 , 减少 不 良 贷款 的 发 生 率 。 在 信 
用 评分 发 展 初期 ， 主 要 参考 因素 是 客户 的 财产 担保 、 社 会 地 位 、 能 力 、 
声誉 。 如 5C 方法 ， 主 要 是 针对 客户 的 贷款 人 额度、 抵押 品 、 净 资产 、 市 
场 条 件 和 品格 , 对 客户 做 出 是 否 审批 贷款 的 决定 。 但 是 这 种 定性 方法 存 
在 很 多 人 为 因素 ， 可 能 造成 主观 因素 占 比 太 多 , 误差 太 大 ， 造 成 企业 运 
营 风 险 。 目 前 ,大量 的 统计 回归 和 人 工 智能 算法 运用 到 信用 评分 模型 中 ， 
可 以 很 大 程度 降低 人 为 主观 因素 的 影响 。 

Ranshami 提出 了 多 重 判别 分 析 和 神经 网 络 两 种 方法 进行 信用 评价 ， 
并 且 发 现 神经 网 络 分 类 器 的 预测 结果 显著 优 于 统计 回归 模型 。 之 后 ， 有 
更 多 专家 将 神经 网 络 和 回归 及 基因 算法 在 客户 信用 评分 中 进行 了 对 比 。 
算法 逐渐 进化 ， 混 合 了 神经 网 络 、 统 计 回 归 和 运筹 学 。 基 于 此 ， 将 通过 
神经 网 络 分 类 器 对 信用 评分 在 银行 贷款 审批 上 的 应 用 进行 实证 检验 和 
对 比分 析 。 使 用 信用 评分 对 数据 集 构建 模型 ， 进 行 分 析 和 评价 。 


6.2.2 ”神经 网 络 模型 


神经 网 络 CNN)， 就 是 构建 一 个 含有 输入 层 、 输 出 层 和 隐 含 层 的 模 
型 ， 其 中 隐 含 层 可 以 有 多 层 ， 这 组 输入 和 输出 单元 相互 连接 ， 单 元 之 间 
的 每 个 连接 都 设置 一 个 权重 。 输入 层 中 神经 元 数目 根据 数据 集中 的 属性 
数目 确定 ， 输 出 层 为 一 个 神经 元 ， 经 过 训练 ， 设 定 和 迭代 次 数 和 误差 及 求 
出 每 个 神经 元 的 权重 ， 确 定 模型 ， 对 输入 数据 进行 预测 。 

对 于 感知 器 模型 ， 最 初 只 能 解决 两 层 神经 网 络 的 学 习 训练 问题 ， 对 
于 多 层 网 络 〈 例 如 三 层 )， 便 不 能 确定 中 间 层 的 参数 该 如 何 调整 。1986 


年 ，Rumelhart 和 McCelland 等 人 提出 了 基于 反 向 传播 的 学 习 算法 ， 用 
于 前 馈 多 层 神经 网 络 的 学 习 训 练 。 由 于 “ 反 向 传播 ”的 英文 叫 作 
Back-Propagation， 所 以 这 个 算法 也 常常 被 学 者 简称 为 BP 算法 。 

反 向 传播 算法 分 为 以 下 两 步 进 行 。 

口 正 向 传播 : 输入 的 样本 从 输入 层 经 过 隐 单 元 一 层 一 层 进行 处 

理 ， 通 过 所 有 的 隐 层 之 后 ， 传 向 输出 层 。 

口 反 向 传播 : 把 误差 信号 按 原来 正 向 传播 的 通路 反 向 传 回 ， 并 对 
每 个 隐 层 的 各 个 神经 元 的 权 系数 进行 修改 ， 以 使 误差 信号 趋向 
最 小 。 

BP 算法 的 实质 是 ， 求 取 误差 函数 最 小 值 问 题 。 基 于 反 向 传播 的 神 

经 网 络 (BPNN) 也 存在 一 定 不 足 ， 本 质 上 讲 ，BP 网 络 是 一 种 静态 的 学 

习 网 络 ， 属 于 非 线性 优化 组 合 问题 ， 它 不 具有 动态 信息 处 理 能 力 ， 采 用 

梯度 下 降 搜 索 算 法 ,不 可 避免 地 存在 局 部 极 少 状态 ， 该 方法 具有 对 网 络 

权 值 及 阔 值 的 赋值 随机 性 和 对 初始 值 的 敏感 性 。 对 于 较 大 的 搜索 空间 ， 

BP 算法 对 于 多 峰值 和 不 可 微 函数 不 可 能 有 效 地 搜索 到 全 局 极 小 值 ， 因 

而 不 能 保证 网 络 学 习 过 程 总 是 趋 于 全 局 稳定 状态 。 并且 当 标 准 的 反 向 传 

播 算法 应 用 于 实际 问题 时 ， 训 练 将 花 较 多 时 间 。 


6.2.3 ”实证 检验 





首先 将 获取 到 的 数据 集 转换 为 WEKA 使 用 的 .arff 格式 。 可 以 通过 
Excel 中 的 .csv 格式 文件 在 WEKA 中 保存 为 .arff 格式 文件 。 

BPNN 在 WEKA 中 表现 为 MultiLayer Perceptron， 其 具体 可 调节 参 
数 有 工 、M、N。 其 中 工 为 学 习 率 ，M 为 冲 量 ，N 为 欠 代 次 数 。 

第 一 组 实验 :对 数据 进行 10 - folds Cross - validation(Z=0.3, M=0.9， 
N=500， 使 用 数据 集 为 China Credit Data，148Good，91Bad)。 

实验 结果 如 表 6-1 所 示 。 


表 6-1 BPNN 第 一 组 实验 结果 混淆 矩阵 











Good Bad 





Good 
Bad 


TP=113 
FN=43 
Typel Error 
Type2 Error 


BP=37 
TN=48 
25.0% 
47.3% 














各 指标 含义 如 下 。 
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(1) HitRate: 命中 率 ， 即 预测 准确 的 数据 量 的 百分比 。 
TN + TP 
HitRate = 一 一 
TN +EFN +TP+FP 
(2) Typel Error: 将 Bad 数据 预测 为 Good 数据 的 百分比 。 
FP 
TP + FP 
(3) Type2 Error: 将 Good 数据 预测 为 Bad 数据 的 百分比 。 
FN 
TN+FN 
第 二 组 实验 : 对 数据 进行 10-folds Cross - validation (L=0.3, M=0.9， 
N=500， 使 用 数据 集 为 German Credit Data，700Good，300Bad)。 试 验 
结果 如 表 6-2 所 示 。 


表 6-2 BPNN 第 二 组 实验 结果 混淆 矩阵 


Good 

| Ps | 
| Typelemor | 
| Teoemo | 
| Hitegae | 


BPNN 的 预测 比较 平衡 ,对 Good 及 Bad 的 准确 率 维持 在 接近 水 准 。 
由 于 当今 贷款 机 构 对 贷款 违约 率 的 关注 度 逐 渐 减 少 ， 而 倾向 于 对 收益 率 
的 重视 , 以 后 分 析 的 工作 会 从 纯 风 险 评估 发 展 到 风险 和 收益 的 综合 评估 。 





Typel Error = 





Type2 Error = 


















结果 分 析 47.3% 


62.3% 





6.3 ”指数 预测 
6.3.1 ”金融 时 间 序 列 概况 


金融 市 场 的 数据 大 都 是 时 间 序 列 数 据 , 指 这 些 数据 是 按照 时 间 的 排 
序 取得 的 一 系列 观测 值 ， 如 股票 或 期 货 价格 、 货 币 利率 、 外 汇 利率 等 。 
这 些 数据 具有 复杂 的 变化 规律 , 而 利用 数学 方法 对 其 进行 分 析 和 研究 将 
有 助 于 制定 更 为 精确 的 定价 和 预测 决策 , 对 于 金融 投资 与 风险 管理 活动 
具有 重要 的 意义 。 金 融 时 间 序 列 分 析 主 要 是 以 统计 理论 和 方法 为 基础 ， 
通过 模型 假设 、 参 数 估计 、 回 归 分 析 等 技术 来 描述 其 内 在 的 规律 。 适 当 
的 数学 工具 和 真实 的 数据 使 金融 时 间 序 列 分 析 成 为 金融 经 济 研究 中 异常 
重要 的 一 块 领域 , 例如 美国 经 济 学 家 Engle 和 英国 经 济 学 家 Granger 就 因 
其 提出 的 ARCH 模型 和 协 整 理论 而 荣获 2003 年 度 诺 贝尔 经 济 学 奖 。 


一 般 来 说 , 时 间 序 列 的 分 析 可 以 通过 时 域 和 频 域 两 个 方面 进行 。 但 
是 很 多 金融 时 间 序 列表 现 出 非 平稳 性 和 长 记忆 性 , 这 使 得 许多 传统 的 单 
独 集中 于 时 域 或 频 域 的 研究 分 析 方 法 已 经 不 再 适用 。 而 小 波 分 析 作为 一 
种 新 型 的 信号 分 析 方法 ， 是 近 20 年 发 展 起 来 的 新 兴 数 学 分 支 ， 也 是 目 
前 数学 界 和 工程 界 讨论 最 多 的 话题 之 一 。 它 在 时 域 和 频 域 都 具有 表征 信 
号 局 部 特征 的 能 力 ,非常 适用 于 分 析 分 平稳 信号 , 并 且 已 经 在 信号 和 图 
像 处 理 、 模 式 识 别 、 语 音 识别 、 地 震 勘 测 等 众多 学 科 中 得 到 了 广泛 应 用 。 
近年 来 , 小 波 分 析 方 法 在 金融 时 间 序 列 分 析 中 的 重要 地 位 也 越 来 越 受到 
人 们 的 关注 。 


6.3.2 ”小 波 消 噪 


小 波 分 析 是 在 Fourier 分 析 的 基础 上 发 展 起 来 的 ， 是 调和 分 析 多 年 
发 展 的 结晶 。 其 基本 思想 是 将 一 般 函 数 〈 信 号 ) 表示 为 规范 正 交 小 波 基 
的 线性 县 加 , 核心 内 容 是 小 波 变 换 。 由 于 小 波 变换 在 时 域 和 频 域 具 有 良 
好 的 局 部 化 性 质 ， 能 自动 调整 时 、 频 窗口 ， 以 适应 实际 分 析 需 要 ， 因 而 
已 成 为 许多 工程 学 科 应 用 的 有 力 工具 。 

金融 市 场 中 数据 由 于 各 种 偶然 因素 的 影响 ， 即 使 不 存在 暗箱 操作 ， 
或 没有 什么 重要 新 闻 、 重 要 政策 出 台 ， 也 会 表现 一 种 小 幅 的 随机 波动 。 
这 些 随机 波动 可 以 看 成 是 信号 的 噪声 , 不 具有 分 析 和 预测 的 价值 , 而 且 
这 些 随机 波动 往往 严重 地 影响 了 进一步 的 分 析 和 处 理 。 因 而 在 做 金融 事 
件 序列 的 建 模 分 析 之 前 ， 往 往 要 对 数据 进行 预 处 理 ， 消 除 这 些 噪 声 。 

小 波 消 噪 的 步骤 : 为 了 更 有 效 地 预测 金融 市 场 的 未 来 趋势 , 可 以 将 
大 幅 波 动作 为 有 用 信号 保留 ,而 将 小 的 波动 作为 噪声 消除 ， 先 将 数据 进 
行 预 处 理 之 后 ,再 做 时 间 序 列 的 建 模 分 析 。 假设 原始 的 时 间 序 列 So， 建 
模 的 基本 步骤 如 下 。 

1. 小 波 分 解 

选择 合适 的 小 波 函 数 和 小 波 分 解 的 层次 ， 计 算 时 间 序 列 So 到 第 NN 
层 的 小 波 分 解 。 即 首先 对 含 噪声 信号 s( 昌 进行 小 波 变换 ， 得 到 一 组 小 波 
系数 ww. 昌 ,根据 多 分 辩 率 分 析 理 论 ， 分 解 的 层次 越 高 ， 去 掉 的 低频 成 
分 就 越 多 ， 而 低频 成 分 主要 代表 有 用 信号 。 因 而 分 解 的 层次 越 高 ， 去 噪 
效果 越 好 ， 但 是 相应 的 失真 程度 也 越 大 。 


2. 阅 值 处 理 


将 分 解 得 到 的 小 波 系数 进行 冰 值 处 理 , 来 区 分 信号 和 噪声 。 阔 值 的 
确定 对 消 噪 性 能 影响 很 大 ， 阔 值 过 高 会 使 信号 失真 ， 阔 值 过 低 又 会 使 得 
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消 噪 不 完全 。 一 般 来 说 ， 阔 值 的 选择 可 以 有 以 下 几 种 常用 准则 : (1) 无 
偏 风险 估计 准则 〈rigrsure)， 即 一 种 基于 Stein 的 无 偏 似 然 估计 原理 的 
自 适 应 阐 值 选择 方法 ,对 每 个 阐 值 求 出 对 应 的 风险 值 ， 风 险 最 小 的 即 为 
所 选 ; (2) 固定 阔 值 准则 〈sqtwolog)， 设 ”为 小 波 系数 向 量 长 度 ， 则 
设 定 阔 值 为 7=2logn; (3) 混合 阔 值 准则 : 用 于 最 优 预 测 变 量 阐 值 的 选 
择 ， 它 是 rigrsure 准则 和 sqtwolog 准则 的 混合 ; (4) 最 小 最 大 阔 值 准则 
(minmax)， 是 根据 统计 学 中 的 绩效 极 大 估计 量 而 设 定 的 一 种 固定 阔 值 
选择 方法 。 以 上 4 种 阀 值 准则 中 ，rigrsure 和 sqtwolog 是 相对 比较 保守 
的 准则 ， 它 仅 是 部 分 系数 置 零 ， 可 以 保留 较 多 的 高 频 信 号 。 因 而 根据 金 
融 数 据 高 频 性 特征 , 我 们 一 般 可 以 选择 rigrsure 准则 或 sqtwolog 准则 来 
确定 阔 值 。 在 实证 中 ， 阔 值 取 的 是 140。 


3. 小 波 消 品 及 重 构 


一 般 来 说 ， 除 了 简单 的 强制 消 噪 方法 〈 该 方法 直接 将 小 波 分 解 结构 
中 的 高 频 系数 置 零 )， 阔 值 消 噪 方法 可 分 为 默认 阔 值 消 噪 处 理 和 软 〈 硬 ) 
闵 值 消 噪 处 理 两 种 ,后 者 在 实际 应 用 中 比 前 者 更 具有 操作 性 。 通 过 阐 值 
选择 的 高 频 和 低频 系数 及 小 波 逆 变 变换 公式 ， 计 算出 信号 的 小 波 重 构 ， 
达到 消 噪 的 目的 。 


6.3.3 向 量 机 


支持 向 量 机 (Support Vector Machine，SVM) 是 数据 挖掘 中 的 一 项 
新 技术 ,是 借助 于 最 优化 方法 解决 机 器 学 习 问 题 的 新 工具 。 虽 然 它 还 处 
在 发 展 的 阶段 , 但 其 理论 基础 和 实现 的 基本 框架 已 经 形成 。 支持 向 量 机 
目前 主要 用 来 解决 分 类 问题 和 回归 问题 ,而 股市 行为 预测 通常 为 预测 股 
市 数据 的 走势 和 预测 股市 数据 的 未 来 数值 。 当 我 们 将 走势 看 作 两 种 状态 
( 涨 、 跌 )， 问 题 便 转化 为 分 类 问题 ， 预 测 股市 未 来 的 价格 是 典型 的 回 
归 问 题 。 有 理由 相信 支持 向 量 机 可 以 对 股市 进行 预测 。 

支持 向 量 机 (Support Vector Machine, SVM) 是 Cortes 和 Vapnik 
于 1995 年 首先 提出 的 ， 在 解决 小 样本 、 非 线性 及 高 维 模式 识别 中 表现 
出 特有 的 优势 ， 并 能够 推广 应 用 到 函数 拟 合 等 其 他 机 器 学 习 问 题 中 。 它 
是 建立 在 统计 学 习 理论 的 VC 维 理论 和 结构 风险 最 小 原理 基础 上 的 , 根 
据 有 限 的 样本 信息 在 模型 的 复杂 性 和 学 习 能 力 之 间 寻 求 平衡 点 , 以 获得 
最 好 的 推广 能 力 。 所 谓 VC 维 是 对 函数 类 的 一 种 度量 ,可 以 简单 地 理解 
为 问题 的 复杂 程度 ，VC 维 越 高 ， 一 个 问题 就 越 复杂 。 而 SVM 正 是 用 
来 解决 这 个 问题 的 ， 它 基本 不 关乎 维 数 的 多 少 ， 和 样本 的 维 数 无 关 〈 有 


这 样 的 能 力也 因为 引入 了 核 函 数 )。 机 器 学 习 本 质 上 就 是 一 种 对 问题 真 
实 模型 的 逼近 ,选择 的 模型 与 问题 真实 解 之 间 究竟 有 多 大 差距 ,无 法 得 
知 ,因此 统计 学 引入 泛 化 误差 界 的 概念 ， 是 指 真实 风险 应 该 由 两 部 分 内 
容 刻 画 : 一 是 经 验 风险 ,代表 了 分 类 器 在 给 定 样 本 上 的 误差 ; 二 是 置信 
风险 ,代表 了 在 多 大 程度 上 可 以 信任 分 类 器 在 未 知 文本 上 分 类 的 结果 ， 
第 二 部 分 是 没有 办 法 精确 计算 的 ,因此 只 能 给 出 一 个 估计 的 区 间 , 也 使 
得 整个 误差 只 能 计算 上 界 , 而 无 法 计算 准确 的 值 ( 所 以 叫 作 泛 化 误差 界 ， 
而 不 叫 泛 化 误差 )。 


6.3.4 ”指数 预测 


国信 证 券 公司 曾经 使 用 基于 小 波 分 析 和 支持 向 量 机 的 指数 预测 模 
型 预测 沪 深 300 指数 走势 。 选 择 了 应 用 50 个 交易 日 为 训练 集 预 测 5 个 
交易 日 的 方法 ， 绘 制 了 如 图 6-3 所 示 的 近 一 年 沪 深 300 预测 图 形 (Real 
表示 真实 走势 ，Forecast 表示 预测 走势 )。 通 过 反复 观察 ， 我 们 发 现 预 
测 走势 有 滞后 真实 走势 的 现象 ,两 者 相关 系数 为 0.78， 预 测 每 日 涨 跌 的 
准确 率 为 68.5%。 
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资料 来 源 : 国信 证 券 既 济 研究 所 


图 6-3 ”指数 预测 和 真实 对 比 
6.4 ”客户 分 群 的 精准 智能 营销 


6.4.1 挖掘 目标 


面 对 客户 的 个 性 化 的 需求 , 大 众 营 销 已 经 失去 优势 。 基 于 客户 信息 、 
客户 价值 和 行为 , 深入 数据 分 析 的 洞察 力 营销 、 精 准 化 营销 的 理念 逐渐 
接受 ， 许 多 公司 希望 通过 数据 挖掘 来 减少 营销 成 本 、 提 高 营销 效益 。 以 
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电信 行业 为 例 ， 数 据 挖掘 的 价值 包括 以 下 几 方面 。 

口 “争取 更 多 的 客户 。 根 据 对 现 有 客户 分 析 ， 识 别 潜在 客户 ， 提 高 

市 场 反应 速度 ， 优 化 销售 渠道 结构 ， 提 供 差 异化 产品 。 

口 “减少 客户 流失 率 。 了 解 流失 率 较 高 的 客户 群 特征 ， 特 别 是 获 利 
比较 多 的 客户 的 个 性 特征 。 通 过 市 场 细 分 监控 具有 类 似 个 性 特 
征 的 客户 发 展 动态 ， 提 高 在 线 客户 流失 率 预测 的 准确 率 ， 提 前 
做 好 预防 客户 流失 的 措施 。 

口 ”降低 服务 成 本 ， 提 高 业务 收入 ， 提 高 企业 的 运营 效率 。 通 过 细 
致 地 分 析 用 于 各 个 用 户 群 的 服务 成 本 ， 用 较 少 的 成 本 定位 在 目 
标 市 场 ， 最 优化 投资 ， 设 计 出 有 吸引 力 的 且 节 省 成 本 的 服务 组 
合 提供 给 各 个 细 分 市 场 。 

口 优化 服务 。 监 控 每 个 细 分 市 场 的 业务 使 用 和 获 利 情况 ， 建 立 不 
同 的 销售 渠道 来 满足 不 同 电信 市 场 需求 。 根 据 客户 需求 定制 个 
性 化 服务 产品 ， 及 时 洞悉 客户 的 业务 或 者 产品 的 使 用 情况 ， 提 
高 用 户 业 务 使 用 满意 度 。 

口 ”制定 精准 的 市 场 营销 策略 。 通 过 熟悉 各 个 细 分 市 场 的 消费 特征 ， 
为 各 个 细 分 市 场 制定 专门 的 价格 、 渠 道 、 促 销 和 个 性 化 产品 。 


6.4.2 分析 方法 和 过 程 





最 主要 的 目标 是 分 类 , 营销 者 根据 顾客 之 间 需 求 的 差异 性 , 把 一 个 
整体 市 场 划分 为 若干 个 消费 者 群 的 市 场 。 由 于 顾客 对 运营 商 产 品 需求 的 
多 样 性 、 变 动 性 以 及 运营 商 企业 资源 的 有 限 性 , 运营 商 企业 在 进行 市 场 
营销 过 程 中 ， 必 须 进行 市 场 分 析 ， 选 择 目标 市 场 ， 做 出 市 场 定位 ， 并 结 
合 目标 市 场 特 点 和 结构 制定 有 针对 性 的 市 场 营销 策略 。 

数据 挖掘 的 分 类 和 聚 类 方法 都 可 以 应 用 于 客户 分 群 。 本 案例 将 对 用 
聚 类 方法 进行 客户 分 群 的 实现 模式 进行 详细 阐述 。 

1. 客户 分 群 的 业务 理解 


客户 从 营销 属性 分 为 3 类 : 公众 客户 、 商 业 客户 、 大 客户 。 其 中 ， 
公众 客户 消费 行为 随机 性 较 大 , 客户 分 布 难 有 规律 可 循 ， 比 较 适 合 于 聚 
类 分 析 。 从 价值 和 行为 维度 方面 ,考察 客户 业务 拥有 与 使 用 、 消 费 行为 
变化 、 他 网 业务 渗透 等 方面 属性 ， 采 用 聚 类 分 析 的 数据 挖掘 技术 对 研究 
的 目标 客户 进行 客户 分 群 ， 对 各 客户 群 进行 特征 刻画 和 属性 分 析 。 由 于 
客户 的 特性 是 不 断 变 化 的 ,数据 挖掘 的 分 析 结 果 具 有 一 定时 效 性 ， 因 此 
挖掘 在 目标 、 进 度 和 资源 安排 上 要 有 明确 要 求 。 

首先 针对 各 个 部 门 的 需求 进行 访谈 和 策略 分 析 。 基于 访谈 中 了 解 的 


客户 需求 ， 本 案例 采用 用 户 行为 特征 作为 细 分 变量 ， 以 用 户 人 口 统计 信 
息 和 客户 价值 作为 描述 变量 ， 从 而 定位 人 群 特征 。 


2. 客户 分 群 的 数据 理解 


本 例 分 析 了 各 业务 系统 及 企业 数据 仓库 中 客户 信息 、 客 户 消费 及 购 
买 使 用 行为 3 个 方面 最 近 6 个 月 的 历史 数据 。 通 过 业务 受理 开通 的 CRM 
系统 , 进行 计 费 、 账 务 及 欠 费 处 理 的 计 费 系统 , 卡 类 业务 的 智能 网 系统 ， 
客户 服务 的 10000 号 系统 ,营销 服务 的 渠道 系统 , 还 有 结算 系统 得 到 原 
始 数据 。 这 些 业 务 系统 储存 了 企业 运营 的 海量 客户 数据 。 有 些 企 业 还 建 
立 了 数据 仓库 系统 ， 要 对 这 些 数据 进行 清洗 、 整 合 和 集中 。 

本 例 从 企业 数据 仓库 中 确定 了 以 下 数据 的 来 源 。 

(1) 客户 基本 信息 (USER_DCUSTM)。 

(2) 用 户 账 务 信息 (FEE_ SHOULDDM)。 

(3) 呼叫 详细 记录 信息 (Calling Deatil Records，CDR )。 

口 语音 CDR (CALL _CDR)。 

口 IP 业务 CDR (NEWBUSI CDR)。 

口 短信 业务 CDR (NEWBUSI_SMSCDR)。 

口 梦 网 业务 CDR (NEWBUSI_MESGCDR)。 

(4) 客服 信息 (DW_USR_SRVIFM)。 

可 以 借助 一 些 可 视 化 工具 或 者 统计 分 析 进 行 数据 探索 , 以 明确 数据 
的 分 布 状况 和 重要 的 属性 以 及 关系 。 例如 ,通过 值 分 析 对 数据 进行 基本 
的 探查 ,包括 空 值 、 唯 一 值 、 空 字符 串 、 零 值 、 正 值 、 负 值 的 统计 : 统 
计 分 析 计算 各 数值 类 型 变量 的 最 小 值 、 最 大 值 、 均 值 、 标 准 差 等 ， 有 利 
于 发 现 一 些 异 常 值 ; 频次 分 析 、 直 方 图 分 析 有 助 于 更 准确 地 了 解数 据 的 
分 布 ， 从 中 发 现 有 价值 的 点 ， 其 中 频次 分 析 主 要 面向 离散 型 变量 ， 而 直 
方 图 分 析 主 要 面 对 连 续 型 变量 。 

数据 探索 有 助 于 提炼 数据 描述 和 质量 报告 ， 还 能 发 现 数据 异常 ， 并 
为 进一步 的 数据 转换 和 数据 准备 打 基 础 。 除 了 统计 分 析 , 抽样 核查 比较 
也 是 数据 检验 常用 的 方法 。 在 进行 数据 检验 时 ， 需 要 有 对 数据 意义 和 取 
值 范围 敏感 的 业务 人 员 参 与 。 

3. 客户 分 群 的 数据 准备 

数据 准备 是 指 从 原始 未 加 工 的 数据 构造 最 终 分 析 数 据 集 的 活动 , 是 
数据 挖掘 过 程 中 最 耗 时 的 环节 ， 数 据 准备 的 流程 如 下 。 


1) 数据 选择 
此 阶段 决定 用 来 分 析 的 数据 。 选择 标准 包括 与 数据 挖掘 目标 的 是 否 























明显 相关 , 数据 质量 和 工具 技术 不 构成 约束 限制 ,如 对 数据 容量 或 者 数 
据 类 型 的 限制 。 数据 选择 包括 对 数据 表格 中 属性 和 记录 的 选择 。 客 户 行 
为 特征 从 表 中 来 获取 信息 ， 如 表 6-3 所 示 。 


表 6-3 ”客户 行为 特征 信息 获取 











客户 数据 导出 客户 需求 种 类 

上 网 时 间 

上 网 流量 对 方便 性 及 信息 实时 性 的 需求 

IP 情况 

优惠 时 段 通话 情况 对 资费 的 敏感 程度 

客服 电话 拨打 情况 

语音 通话 时 长 

语音 通话 次 数 对 通话 的 多 层次 需求 

语音 通话 类 型 

服务 类 型 对 多 元 化 服务 的 需求 程度 
2) 数据 清洗 


此 阶段 将 数据 质量 提高 到 所 选 分 析 技 术 和 分 析 目 标 要 求 的 水 平 。 

这 包括 选择 需要 进行 数据 清洗 的 子 集 ， 插 入 适当 的 默认 值 或 者 通过 更 
加 复杂 的 技术 来 估计 缺失 值 。 本 例 将 拥有 产品 较 多 及 公 免 的 客户 数据 剔除 。 

3) 数据 构造 

该 任务 包括 构建 数据 的 准备 操作 ， 如 进行 变量 设计 生成 派生 属性 ， 
生成 完整 的 新 记录 或 者 已 存 属 性 的 转换 值 。 在 宽 表 基础 上 ， 通 过 抽取 、 
合并 、 和 衍生 得 到 分 主题 汇集 的 价值 变量 和 行为 变量 形成 的 中 间 表 , 将 中 
间 表 中 每 个 用 户 6 个 月 的 信息 汇总 成 一 条 记录 。 

在 进行 变量 设计 时 , 建议 技术 人 员 和 业务 人 员 密 切 配 合 讨论 , 根据 
业务 需要 ,挖掘 目标 及 数据 源 的 实际 状况 ， 确 定数 据 选 择 ， 确 定 基础 变 
量 和 数据 源 的 映射 关系 ,确定 衍生 变量 的 数据 转换 逻辑 。 

中 间 表 变量 命名 的 规范 化 有 助 于 用 户 理解 、 记 忆 和 应 用 ， 有 利于 将 
来 数据 挖掘 的 应 用 分 析 。 变量 命名 采用 对 变量 属性 进行 描述 的 分 段 的 英 
文 缩写 ， 便 于 分 析 。 

4) 数据 整合 

对 各 个 中 间 表 的 数据 进行 联合 ， 生 成 最 终 的 分 析 数 据 集 ， 也 称 为 宽 表 。 

本 例 以 客户 标识 为 主键 , 串联 起 客户 相关 的 所 有 信息 数据 ,建立 起 
统一 的 客户 视图 ,在 整合 数据 时 ,回顾 业务 理解 阶段 对 挖掘 目标 的 定义 。 

5) 数据 格式 化 

格式 化 转换 是 指 根据 建 模 的 要 求 ， 对 数据 表现 形式 进行 变换 。 如 用 
K 均值 算法 做 聚 类 分 析 时 ， 需 要 先 将 数据 进行 标准 化 处 理 ， 对 数据 进行 
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Z 变换 ， 以 消除 量 纲 不 同 可 能 引起 的 数据 差异 。 
4. 客户 分 群 的 模型 建立 


在 生成 最 终 分 析 的 数据 集 后 , 就 可 以 建立 模型 进行 聚 类 分 析 了 。 模 
型 建立 阶段 主要 是 通过 因子 分 析 找 到 变量 之 间 的 关系 ， 并 优化 变量 组 
合 。 在 对 模型 结果 的 分 析 中 ， 根据“ 群 间 差距 最 大 ， 群 内 差距 最 小 ”的 
原则 进行 分 析 ， 同 时 调整 变量 组 合 ， 以 尽量 接近 标准 。 以 此 方式 循环 ， 
逐步 使 模型 得 到 优化 。 

1) 数据 探索 

将 前 面 所 叙述 的 数据 进行 取样 ， 当 拿 到 了 一 个 样本 数据 集 后 , 它 是 
否 达到 原来 设想 的 要 求 ,其 中 有 没有 什么 明显 的 规律 和 趋势 ， 有 没有 意 
料 之 外 的 数据 状态 ， 因 素 之 间 有 什么 相关 性 ， 这 里 的 数据 探索 ， 就 是 深 
入 调查 的 过 程 , 最 终 要 达到 的 目的 可 能 是 要 搞 清 楚 多 因素 相互 影响 而 形 
成 的 十 分 复杂 的 关系 。 但 是 这 种 复杂 的 关系 一 下 子 建立 起 来 比较 难 。 首 
先 可 以 先 观察 众多 因素 之 间 的 相关 性 ， 再 按 其 相关 的 程度 ， 以 了 解 它 们 
之 间 相 互 作 用 的 情况 。 在 这 个 过 程 中 ， 对 于 数据 的 理解 是 非常 有 用 的 ， 
可 以 帮助 进行 有 效 的 观察 。 但 是 要 注意 , 数据 探索 的 时 候 不 要 被 专业 知 
识 束缚 了 对 数据 特征 观察 的 敏锐 性 , 不 能 一 直 沉浸 在 原 有 的 思路 中 ， 因 
为 数据 中 可 能 存在 着 先 验 知识 认为 不 存在 的 关系 。 

结合 对 电信 业务 的 理解 和 本 次 挖掘 建 模 的 目标 ， 从 客户 类 型 、 客 户 
状态 和 在 网 天 数 3 方面 展示 了 客户 的 分 布 情况 。 由 于 公 免 用 户 不 能 代表 
普遍 用 户 行 为 ， 容易 在 聚 类 形成 噪声 ， 因 此 在 用 户 状态 中 仅 选 择 了 正常 
用 户 ， 即 入 网 时 间 90 天 以 上 的 用 户 ， 以 保证 研究 样本 拥有 完整 的 研究 
期 间 数据 。 

2) 因子 分 析 

宽 表 中 包含 了 大 量 客户 数据 变量 , 参与 建 模 的 变量 太 多 会 削弱 主要 
业务 属性 的 影响 ， 并 给 理解 分 群 结 果 带 来 困难 ; 太 少 则 不 能 全 面 覆 盖 需 
要 考察 的 各 方面 属性 ， 可 能 会 遗漏 一 些 重 要 的 属性 关系 。 输 入 变量 的 选 
择 对 建立 满意 的 模型 至 关 重 要 。 

3) 生成 细 分 模型 

由 于 价值 变量 和 行为 变量 具有 较 强 的 相关 性 , 可 以 只 挑选 客户 业务 
收入 变量 进行 客户 价值 分 群 , 也 可 以 只 挑选 客户 消费 行为 变量 进行 客户 
行为 分 群 , 根据 数据 挖掘 的 商业 目标 选择 一 种 分 群 方式 。 也 可 以 同时 用 
两 种 分 群 模式 对 同一 批 客户 作 两 次 分 群 , 然后 根据 两 次 分 群 的 结果 进行 
组 合 ， 如 先 分 成 9 个 价值 分 群 ， 再 分 成 8 个 行为 分 群 ， 组 合 后 会 有 72 
个 子 群 。 
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由 于 组 合 后 子 群 数目 较 多 , 不 便 分 析 和 管理 , 可 以 借助 透视 图 分 析 ， 
将 特征 相似 的 子 群 进行 归并 , 建议 最 终归 并 成 7~9 个 分 群 。 进行 价值 和 
行为 组 合 分 群 的 好 处 是 , 能 同时 兼顾 考虑 价值 和 行为 两 方面 因素 对 客户 
分 群 的 影响 , 更 利于 对 各 分 群 特征 的 描述 ,并 能 有 效 消除 单 次 分 群 产 生 
的 偏差 。 

4) 模型 分 析 

细 分 前 整个 用 户 群 数据 落差 较 大 。 细 分 后 各 组 的 强势 变量 的 分 布 趋 
于 平缓 ， 聚 类 模型 将 具有 相似 特征 的 记录 聚 在 一 起 。 

模型 建立 是 一 个 螺旋 上 升 、 不 断 优 化 的 过 程 , 在 每 一 次 分 群 结束 后 ， 
需要 判断 分 群 结 果 在 业务 上 是 否 有 意义 ， 其 各 群 特征 是 否 明显 。 如 果 结 
果 不 理想 ， 则 需要 调整 分 群 模型 ， 对 模型 进行 优化 ， 称 为 分 群 调 优 。 

5) 客户 分 群 的 模型 评估 

在 分 群 调 优 过 程 中 需要 对 模型 进行 合理 评估 。 在 完成 模型 建立 后 ， 
从 数据 分 析 的 角度 来 看 , 模型 看 上 去 有 很 高 的 质量 , 然而 在 模型 最 后 发 
布 前 ， 仍 有 必要 更 彻底 地 评估 模型 和 检查 建立 模型 的 各 个 步骤 ， 从 而 确 
保 它 真正 地 达到 了 商业 目标 。 

模型 评估 阶段 需要 对 数据 挖掘 过 程 进行 一 次 全 面 的 回顾 , 从 而 决定 
是 否 存 在 重要 的 因素 或 任务 由 于 某 些 原因 被 忽视 , 此 阶段 的 关键 目的 是 
决定 是 否 还 存在 一 些 重 要 的 商业 问题 仍 未 得 到 充分 地 考虑 。 这 种 回顾 也 
包括 质量 保证 问题 ， 例 如 ， 过 程 的 每 一 步 是 否 必要 ? 是 否 被 恰当 地 执 
行 ? 是 否 可 以 改进 ? 有 什么 不 足 及 不 确定 的 地 方 及 会 产生 何 种 影响 ? 
根据 评估 结果 和 过 程 回 顾 ， 决 定 是 完成 该 项 目 并 在 适当 的 时 候 进行 发 
布 ， 还 是 开始 进一步 的 反复 或 建立 新 的 数据 挖掘 项 目 。 

6) 客户 分 群 的 模型 发 布 

模型 的 创建 通常 不 是 项 目的 结尾 , 即使 建 模 的 目的 是 增加 对 数据 的 
了 和解， 所 获得 的 了 解 也 需要 继续 进行 组 织 , 并 以 一 种 客户 能 够 使 用 的 方 
式 呈 现 出 来 。 根据 需要 ,发布 过 程 可 以 简单 到 产生 一 个 报告 ,也 可 以 复 
杂 到 在 整个 企业 中 执行 一 个 可 重复 的 数据 挖掘 过 程 。 客 户 分 群 的 结果 发 
布 是 通过 客户 群 特征 刻画 和 客户 群 属性 分 析 来 展现 的 。 


6.4.3” 建 模仿 真 

本 节 采 用 TipDM 数据 挖掘 在 线 建 模 平台 中 的 改进 K-means 聚 类 、 
DBSCAN 聚 类 、EM 聚 类 等 算法 进行 模型 构建 。 

1. 模型 输入 

模型 输入 包括 两 部 分 : 建 模 专 家 样本 数据 的 输入 和 建 模 参 数 的 输 


入 ， 可 以 定义 几 组 数据 作为 细 分 变量 ， 如 表 6-4 所 示 。 
表 6-4 细 分 变量 
细 分 变量 来 源 细 分 变量 描述 
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网 内 通话 








活动 范 


到 





运营 商 A 通话 
运营 商 B 通话 
固 话 

上 网 流量 

数据 业务 短信 

彩信 
营业 厅 现 场 办 理 
网 站 办 理 
手机 APP 办 理 
电话 办 理 


跨 网 情况 


客服 


2. 结果 分 析 


客户 群 的 特征 描述 是 通过 将 很 多 枯燥 无 味 的 数据 变 成 生动 形象 的 
客户 体现 ， 以 帮助 市 场 营销 人 员 更 好 地 理解 客户 群 。 参 与 分 群 的 变量 决 
定 了 各 分 群 的 主要 特征 , 除了 对 这 些 变量 的 统计 及 分 布 特性 进行 深入 刻 
画 外 ， 对 未 参加 分 群 的 变量 也 可 以 在 特征 刻画 阶段 考察 其 统计 特性 。 

特征 刻画 首先 进行 客户 群 特征 粗略 定性 比较 分 析 , 然后 可 以 利用 透 
视图 等 工具 对 各 客户 群 宽 表 变量 分 类 进行 详细 地 定量 刻画 。 表 6-5 中 是 
各 组 相对 强 弱势 情况 比较 。 





表 6-5 ”客户 群 特征 初步 分 析 




















分 组 号 强势 特征 弱势 特征 
组 1 | 低 使 用 率 组 无 
本 地 、 省 内 长 途 漫 
组 2 | 固 话 联系 紧密 组 与 固定 电话 通话 多 | 游 、 省 间 长 途 、 短信、 
IP、 跨 运营 商 通 话 
组 3 | 中 低 使 用 率 组 与 固定 电话 通话 多 | 省 级 长 途 ，IP 电话 
无 跨 运 营 商 通话 








续 表 
弱势 特征 
跨 网 通话 时 长 , 次 数 | 漫游 
跨 网 通话 时 长 , 次 数 | 无 
组 6 | 短信 使 用 组 短信 ， 客 服 电话 | 无 
组 7 | 本 地 通话 组 本 地 通话 时 长 , 次 数 | 无 
组 8| 上 网 流量 组 ”|  。 ”| 上 网 流量 大 

然后 再 结合 年 龄 、 性 别 进行 进一步 分 析 ， 得 到 典型 群体 用 户 ， 采 取 
相应 的 市 场 策 略 ， 如 表 6-6 所 示 。 
表 6-6 ”客户 群 特征 精确 分 析 


组 号 人 群 特 征 分 析 市 场 策略 


让 该 乡 
技术 敏感 组 。 | 新 业务 使 用 频率 高 ， 是 铁杆 粉丝 | 推广 新 业务 先 让 该 组 人 


尝试 


大 量 本 地 通话 ,年 龄 在 35 岁 以 上 ， 
高 端 本 地 商务 组 可 能 是 商务 或 者 政府 机 关 人 员 体现 关怀 ， 重 点 挽留 


中 端 移动 商务 组 括 业务 员 、 中 端 商旅 人 十 推荐 漫游 话费 包 


高 端 移动 商务 组 | 大 量 长 途 漫 游 ， 对 资费 不 敏感 赠送 积分 、 礼 品 等 
学 生 组 通话 少 ， 上 网 、 短 信 多 推荐 校园 网 业务 










分 组 号 
组 4 | 跨 网 通话 组 


















大 量 长 途 漫游 通话 需求 ， 估 计 包 





6.5 ”使 用 WEKA 进行 房屋 定价 


可 以 通过 浏览 器 搜索 关键 字 ， 找 到 WEKA 的 下 载 地 址 。 因 为 它 基 
于 Java， 所 以 如 果 计 算 机 上 没有 安装 JRE， 那 么 需要 下 载 一 个 包含 JRE 
的 WEKA 版 本 。 安 装 完毕 后 ，WEKA 的 开始 界面 如 图 6-4 所 示 。 





名 Weka GUI Chooser 一 口 x 
Brogram Visualization Tools Help 

Mpplications ~ 

- 

The University Experimenter 
of Waikato 
了 KnowledgeFlow 

Wairato Envronment for knowledge Analysis Workbench 
Version 382 
{c) 1999 - 2017 
The University of Waitato Simple CLI 
Hamilton, New Zealand 





图 6-4 WEKA 启动 


在 启动 WEKA 时 ， 会 弹出 GUI 选择 器 ， 选 择 使 用 WEKA 和 数据 
的 4 种 方式 。 对 于 本 文中 的 例子 ， 选 择 Explorer， 如 图 6-5 所 示 。 
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图 6-5 WEKA Explorer 
回归 模型 可 以 简单 到 只 有 一 个 输入 变量 和 一 个 输出 变量 , 也 可 以 包 


括 很 多 输入 变量 。 实 际 上 ， 所 有 回归 模型 均 符合 同一 个 通用 模式 。 多 个 
自 变量 综合 在 一 起 可 以 生成 一 个 结果 一 一 一 个 因 变量 。 然 后 用 回归 模型 
根据 给 定 的 这 些 自 变量 的 值 预测 一 个 未 知 的 因 变量 的 结果 。 


每 个 人 都 可 能 使 用 过 或 看 到 过 回归 模型 , 甚至 曾 在 头脑 里 创建 过 一 


个 回归 模型 。 人 们 能 立即 想到 的 一 个 例子 就 是 给 房子 定价 。 房 子 的 价格 

( 因 变 量 ) 有 很 多 自 变量 ,包括 房子 的 面积 、 地 段 、 楼 层 、 装 修 等 。 所 
以 , 不 管 是 购买 过 一 个 房子 还 是 销售 过 一 个 房子 , 都 可 能 会 创建 一 个 回 
归 模 型 来 为 房子 定价 。 这 个 模型 建立 在 邻近 地 区 内 的 其 他 有 可 比 性 的 房 
子 的 售 价 的 基础 上 《模型 )， 然 后 再 把 自己 房子 的 值 放 入 此 模型 来 产生 
一 个 预期 价格 。 


为 了 将 数据 加 载 到 WEKA， 必 须 将 数据 放 入 一 个 我 们 能 够 理解 的 


格式 。WEKA 建议 的 加 载 数据 的 格式 是 Attribute-Relation File Format 

(ARFF)， 可 以 在 其 中 定义 所 加 载 数 据 的 类 型 ， 然 后 再 提供 数据 本 身 。 
在 这 个 文件 内 ,我 们 定义 了 每 列 以 及 每 列 所 含 内 容 。 对 于 回归 模型 ， 只 
能 有 NUMERIC 或 DATE 列 。 


@RELATION house 


@ATTRIBUTE houseSize NUMERIC 


151 — 


@ATTRIBUTE lotSize NUMERIC 
@ATTRIBUTE bedrooms NUMERIC 
@ATTRIBUTE granite NUMERIC 
@ATTRIBUTE bathroom NUMERIC 
@ATTRIBUTE sellingPrice NUMERIC 


@DATA 
3529,9191,6,0,0,205000 
3247,10061,5,1,1,224900 
4032,10150,5,0,1,197900 
2397,14156,4,1,0,189900 
2200,9600,4,0,1,195000 
3536,19994,6,1,1,325000 
2983,9365,5,0,1,230000 


数据 创建 完成 后 ， 就 可 以 开始 创建 我 们 的 回归 模型 了 。 启 动 WEKA， 
然后 选择 Explorer。 将 会 出 现 Explorer 屏幕 ， 其 中 ，Preprocess 选项 卡 
被 选中 。 单 击 Open file 按钮 并 选择 在 上 文 创建 的 ARFF 文件 。 在 选择 
了 文件 后 ，WEKA Explorer 应 该 类 似 于 图 6-6 中 所 示 的 这 个 屏幕 快照 。 


© weka Explorer 
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Relation: house Atibutes: 6 Name: houseSize Type Nume 
Instances: 7 Sum of weights: 7 Missin.. 0(0.. Distinct .. Unique: 7(100_ 
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6-6 ”房屋 数据 加 载 后 的 WEKA 


在 这 个 视图 中 ，WEKA 人 允许 查阅 正在 处 理 的 数据 。 在 Explorer 窗 
口 的 左边 , 给 出 了 数据 的 所 有 列 (Attributes) 以 及 所 提供 的 数据 行 的 数 
量 (Instances)。 若 选择 一 列 ，Explorer 窗口 的 右 侧 就 会 显示 数据 集 内 
该 列 数据 的 信息 。 例 如 ， 通 过 选择 左 侧 的 houseSize 列 ( 它 应 该 默认 选 
中 )， 屏 幕 右 侧 就 会 变 成 显示 有 关 该 列 的 统计 信息 。 它 显示 了 数据 集 内 
此 列 的 最 大 值 、 最 小 值 、 平 均值 和 标准 偏差 。 此 外 ， 还 有 一 种 可 视 的 手 
段 来 查看 数据 ， 单 击 Visualize All 按钮 即 可 。 由 于 在 这 个 数据 集 内 的 行 
数 有 限 ， 因 此 可 视 化 的 功能 显得 没有 更 多 数据 点 (如 有 数 百 个 ) 时 那么 
强大 。 

为 了 创建 模型 ， 选 择 Classify 选项 卡 。 第 一 个 步骤 是 选择 想 要 创建 
的 这 个 模型 ,以 便 WEKA 知道 该 如 何 处 理 数 据 以 及 如 何 创建 一 个 适当 的 
模型 : 单 击 Choose 按钮 , 然后 扩展 functions 分 支 , 选择 LinearRegression 
叶 。 这 会 告诉 WEKA 我 们 想 要 构建 一 个 回归 模型 。 选 择 了 正确 的 模型 
后 ，WEKA Explorer 应 该 类 似 于 图 6-7。 
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图 6-7 选择 模型 后 的 WEKA Explorer 
选择 了 想 要 的 模型 后 ， 必 须 告诉 WEKA 创建 这 个 模型 应 该 使 用 的 
数据 在 哪里 。 对 于 回归 ， 可 以 简单 地 选择 Use training set。 这 会 告 i 
WEKA 为 了 构建 我 们 想 要 的 模型 ， 可 以 使 用 在 ARFF 文件 中 提供 的 那 
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些 数 据 。 

创建 模型 的 最 后 一 个 步骤 是 选择 因 变量 〈 即 我 们 想 要 预测 的 列 )。 
在 本 例 中 指 的 就 是 房屋 的 销售 价格 。 在 这 些 测试 选项 的 正 下 方 ， 有 一 个 
组 合 框 ， 可 用 它 来 选择 这 个 因 变 量 。 列 sellingPrice 应 该 默认 选中 。 如 
果 没 有 ， 请 选择 它 。 

我 们 准备 好 创建 模型 后 ， 单 击 Start 按钮 。 图 6-8 显示 了 输出 结果 ， 
给 出 了 房屋 售 价 和 几 个 因素 之 间 的 计算 公式 。 
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Choose LinearRegression -S 0-R1.0E-8-num-decimal-places 4 | 


Test options Classifier output 

图 Usetraining set 

- -26.6882 * houseSize + 
Suppliedtestset 。 Set 

9 7.0551 * locSize + 

O crossvalidation Folds 10 43166.0767 * bedrooms + 

42292.0901 * bathroom + 

OpPercentagesplt  % 66 -21661.1208 


Moreoptons = ) | || Tine taken to buila model: 0 seconds 
J 


| 一 - Evaluation on training set === 
(Num) sellingPrice | 
| Time taken to test model on training data: 0 se 


Start Stop | 


| -一 Sumary 一 - 

| 

| Correlation coefficient 0.9945 

| Mean absolure error 4053.821 
Root mean squared error 4578.4125 

| Relarive absolure error 13.1339 

| Root relative squared error 10.51 

| Toral Numper of Instances 




































\ 6.6 ”作业 与 练习 


1. 请 给 出 Spark 集群 的 Web 监控 的 网 址 表述 。 

2. scala 中 如 何 读 取 数据 文件 的 数据 ? 

3. 班级 内 每 位 同学 提供 一 份 隐 去 姓名 的 近 3 个 月 手机 的 使 用 情 
况 , 包括 话费 总 额 \ 话 费 构 成 、 包 含 时 间 和 时 长 的 通话 记录 ( 隐 去 号 码 )、 
包含 时 间 和 时 长 的 上 网 记录 ,汇总 后 , 请 参考 本 书 中 的 相关 理论 和 软件 ， 
按照 数据 试 着 对 用 户 进行 分 类 ， 预 测 用 户 下 个 月 的 手机 使 用 情况 。 
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大 数据 和 人 工 智能 实验 环境 


1. 大 数据 实验 环境 


一 方面 ,大 数据 实验 环境 安装 、 配 置 难度 大 ， 高 校 难 以 为 每 个 学 生 
提供 实验 集群 ， 实 验 环境 容易 被 破坏 ; 另 一 方面 ， 实 用 型 大 数据 人 才 培 
养 面临 实验 内 容 不 成 体系 、 课 程 教材 缺失 、 考 试 系统 不 客观 、 缺 少 实 训 
项 目 以 及 专业 师资 不 足 等 问题 ， 实 验 开 展 束 手 束 脚 。 

大 数据 实验 平台 (bd.cstorcn) 可 提供 便捷 实用 的 在 线 大 数据 实验 
服务 。 同 步 提供 实验 环境 、 实 验 课程 、 教 学 视频 等 ， 帮 助 轻松 开展 大 数 
据 教 学 与 实验 。 在 大 数据 实验 平台 上 , 用 户 可 以 根据 学 习 基础 及 时 间 条 
件 ， 灵 活 安排 3 一 7 天 的 学 习 计 划 ， 进 行 自主 学 习 。 大 数据 实验 平台 1.0 
界面 如 图 A-1 所 示 。 


大 数据 实验 平台 





A-1 大 数据 实验 平台 1.0 界面 


se 一 附录 人 


作为 一 站 式 的 大 数据 综合 实 训 平台 , 大 数据 实验 平台 同步 提供 实验 
环境 、 实 验 课程 、 教 学 视频 等 ， 方 便 轻松 开展 大 数据 教学 与 实验 。 平 台 
基于 Docker 容器 技术 ， 可 以 瞬间 创建 随时 运行 的 实验 环境 ， 虚 拟 出 大 
量 实验 集群 , 方便 上 百 用 户 同时 使 用 。 通 过 采用 Kubernates 容器 编排 架 
构 管理 集群 ,用户 实验 集群 隔离 、 互 不 干扰 ,并 可 按 需 配置 包含 Hadoop、 
HBase、Hive、Spark、Storm 等 组 件 的 集群 ， 或 利用 平台 提供 的 一 键 搭 
建 集群 功能 快速 搭建 。 

实验 内 容 涵盖 Hadoop 生态 、 大 数据 实战 原理 验证 、 综 合 应 用 、 自 
主 设计 及 创新 的 多 层次 实验 内 容 等 ,每 个 实验 呈现 详细 的 实验 目的 、 实 
验 内 容 、 实 验 原理 和 实验 流程 指导 。 实 验 课 程 包括 36 个 Hadoop 生态 大 
数据 实验 和 6 个 真实 大 数据 实战 项 目 。 平 台 内 置 数据 挖掘 等 教学 实验 数 
据 ， 也 可 导入 高 校 各 学 科 数 据 进行 教学 、 科 研 ， 校 外 培训 机 构 同 样 适 用 。 

此 外 ， 如 果 学 校 需要 自己 搭建 专属 的 大 数据 实验 环境 ，BDRack 大 
数据 实验 一 体 机 (http://www.cstor.cn/proTextdetail 11007.html) 可 针对 
大 数据 实验 需求 提供 完善 的 使 用 环境 , 帮助 高 校 建设 搭建 私有 的 实验 环 
境 。 其 部 署 规划 如 图 A-2 所 示 。 
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图 A-2 BDRack 大 数据 实验 一 体 机 部 署 规划 


基于 容器 Docker 技术 , 大 数据 实验 一 体 机 采用 Mesos+ZooKeeper+ 
Marathon 架构 管理 Docker 集群 。 实 验 时 ， 系 统 预先 针对 大 数据 实验 内 
容 构建 好 一 系列 基于 CentOS 7 的 特定 容器 镜像 , 通过 Docker 在 集群 主 
机 内 构建 容器 ,充分 利用 容器 资源 高 效 的 特点 , 为 每 个 使 用 平台 的 用 户 
开辟 属于 自己 完全 隔离 的 实验 环境 。 容 器 内 部 ， 用 户 完全 可 以 像 使 用 
Linux 操作 系统 一 样 使 用 容器 ,并 且 不 会 被 其 他 用 户 的 集群 所 任何 影响 ， 
只 需 几 台 机 器 , 就 可 能 虚拟 出 能 够 支持 上 百 个 用 户 同时 使 用 的 隔离 集群 
环境 。 图 A-3 所 示 为 BDRack 大 数据 实验 一 体 机 系统 架构 。 











Docker 平 台 
Marathon 
Docker 节 点 


图 A-3 BDRack 大 数据 实验 一 体 机 系统 架构 


硬件 方面 , 采用 cServer 机 架 式 服务 器 ， 其 英特尔 "至 强 * 处 理 器 E5 
产品 家 族 的 性 能 比 上 一 代 提 升 多 至 80%, 并 具备 更 出 色 的 能 源 效率 。 通 
过 英特尔 E5 家 族 系列 CPU 及 英特尔 服务 器 组 件 , 可 满足 扩展 IO 灵活 
度 、 最 大 化 内 存 容量 、 大 容量 存储 和 元 余 计 算 等 需求 ， 软件 方面 ， 搭 载 
Docker 容器 云 可 实现 Hadoop、HBase、Ambari、HDFS、YARN、 
MapReduce、ZooKeeper、Spark、Storm、Hive、Pig、Oozie、Mahonut、 
Python、R 语言 等 绝 大 部 分 大 数据 实验 应 用 。 

大 数据 实验 一 体 机 集 实 验 机 器 、 实 验 手册 、 实 验 数据 以 及 实验 培训 
于 一 体 , 解决 怎么 开设 大 数据 实验 课程 、 需 要 做 什么 实验 、 怎 么 完成 实 
验 等 一 系列 根本 问题 。 提供 了 完整 的 大 数据 实验 体系 及 配套 资源 , 包含 
大 数据 教材 、 教 学 PPT、 实 验 手 册 、 课 程 视频 、 实 验 环境 、 师 资 培训 等 
内 容 ， 涵 盖 面 较为 广泛 ， 通 过 发 挥 实验 设备 、 理 论 教材 、 实 验 手 册 等 资 
源 的 合力 ， 大 幅度 降低 高 校 大 数据 课程 的 学 习 门 槛 ,满足 数据 存储 、 挖 
据 、 管 理 、 计 算 等 多 样 化 的 教学 科研 需求 。 具 体 的 规格 参数 表 如 表 A-1 
所 示 。 








表 A-1 规格 参数 表 
配套 /型 号 标 准 型 增 强 型 
管理 节点 3 台 3 台 
处 理 节点 8 台 15 台 
上 机 人 数 60 人 150 人 





《大 数据 导论 》50 本 
《大 数据 实践 》50 本 
《实战 手册 》 了 PDF 版 


《大 数据 导论 》80 本 
《大 数据 实践 》80 本 
《实战 手册 》 了 PDF 版 


《大 数据 导论 》180 本 
《大 数据 实践 》180 本 
《实战 手册 》 了 PDF 版 





有 


有 


有 

















配套 视频 | 有 有 有 
免费 培训 提供 现场 实施 及 3 天 | 提供 现场 实施 及 5 天 | 提供 现场 实施 及 7 天 
技术 培训 服务 技术 培训 服务 技术 培训 服务 





三 和 0 
人 十 自 





大 数据 实验 一 体 机 在 1.0 版 本 基础 上 更 新 升级 到 最 新 的 2.0 版 本 实 
验 体系 ， 进 一 步 丰 富 了 实验 内 容 ， 实 验 课程 数量 新 增 至 85 个 。 同 时 ， 
实验 平台 优化 了 创建 环境 一 实验 操作 一 提交 报告 一 教师 打分 的 实验 流 
程 ， 新 增 了 具有 海量 题库 、 试 卷 生 成 、 在 线 考试 、 辅 助 评分 等 应 用 的 考 
试 系统 , 集成 了 上 传 数据 一 指定 列表 一 选择 算法 一 数据 展示 的 数据 挖掘 
及 可 视 化 工具 。 

在 实验 指导 方面 , 针对 各 项 实验 所 需 , 大 数据 实验 一 体 机 配套 了 一 
系列 包括 实验 目的 、 实 验 内 容 、 实 验 步骤 的 实验 手册 及 配套 高 清 视频 课 
程 ,内 容 涵盖 大 数据 集群 环境 与 大 数据 核心 组 件 等 技术 前 沿 , 详尽 细致 
的 实验 操作 流程 可 帮助 用 户 解 决 大 数据 实验 门槛 所 限 。 具 体 来 说 ，85 
个 实验 课程 包括 以 下 方面 。 

(1) 36 个 Hadoop 生态 大 数据 实验 。 

(2) 6 个 真实 大 数据 实战 项 目 。 

(3) 21 个 基于 Python 的 大 数据 实验 。 

(4) 18 个 基于 R 语言 的 大 数据 实验 。 

(5) 4 个 Linux 基本 操作 辅助 实验 。 

整套 大 数据 系列 教材 的 全 部 实验 都 可 在 大 数据 实验 平台 上 远程 开 
展 ， 也 可 在 高 校 部 署 的 BDRack 大 数据 实验 一 体 机 上 本 地 开展 。 

作为 一 套 完整 的 大 数据 实验 平台 应 用 ，BDRack 大 数据 实验 一 体 机 
还 配套 了 实验 教材 ,PPT 以 及 各 种 实验 数据 , 提供 使 用 培训 和 现场 服务 ， 
中 国 大 数据 (thebigdata.cn)、 中 国 云 计算 (chinacloud.cn)、 中 国 存储 
(chinastor.org ) 、 中 国 物 联网 (netofthings.cn)、 中 国 智 慧 城 市 
(smartcitychina.cn) 等 提供 全 线 支持 。 目 前 ，BDRack 大 数据 实验 一 体 
机 已 经 成 功 应 用 于 各 类 院 校 ， 国 家 “211 工程 ”重点 建设 高 校 代表 有 郑 
州 大 学 等 ， 民 办 院 校 有 西京 学 院 等 ， 其 部 署 图 如 图 A-4 所 示 。 


2. 人工 智 能 实验 环境 


人 工 智 能 实验 一 直 难 以 开展 ， 主 要 有 两 方面 原因 。 一 方面 ， 实 验 环 
境 需 要 提供 深度 学 习 计 算 集 群 ,支持 主流 深度 学 习 框 架 ， 完 成 实验 环境 
的 快速 部 署 ， 应 用 于 深度 学 习 模 型 训练 等 教学 实践 需求 ， 同 时 也 需要 支 
持 多 人 在 线 实验 。 另 一 方面 ， 人 工 智能 实验 面临 配置 难度 大 、 实 验 入 门 
难 、 缺 乏 实验 数据 等 难题 ， 在 实验 环境 、 应 用 教材 、 实 验 手册 、 实 验 数 
据 、 技 术 支 持 等 多 方面 吸 须 支持 , 以 大 幅度 降低 人 工 智 能 课程 学 习 门 槛 ， 
满足 课程 设计 、 课 程 上 机 实验 、 实 习 实 训 、 科 研 训练 等 多 方面 需求 ， 实 
现 教 学 实验 效果 的 事半功倍 。 
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AIRack 人 工 智能 实验 平台 (http://www.cstor.cn/proTextdetail_ 12031.html) 
基于 Docker 容器 技术 ， 在 硬件 上 采用 GPU+CPU 混合 架构 ， 可 一 键 创 
建 实验 环境 ， 并 为 人 工 智 能 实验 学 习 提 供 一 站 式 服务 。 其 实验 体系 架构 
如 图 A-5 所 示 。 
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图 A-4 BDRack 大 数据 实验 一 体 机 实际 部 署 图 
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图 A-5 AIRack 人 工 智能 实验 平台 实验 体系 架构 


实验 时 ， 系 统 预 先 针对 人 工 智 能 实验 内 容 构建 好 基于 CentOS 7 的 
特定 容器 镜像 ， 通 过 Docker 在 集群 主机 内 构建 容器 ， 开 辟 完 全 隔离 的 
实验 环境 , 实现 使 用 几 台 机 器 即 可 虚拟 出 大 量 实验 集群 以 满足 学 校 实 验 
室 的 使 用 需求 。 平 台 采 用 Google 开源 的 容器 集群 管理 系统 Kubernetes， 





实验 环境 


能 够 方便 地 管理 跨 机 器 运行 容器 化 的 应 用 ， 提 供应 用 部 署 、 维 护 、 扩 展 
机 制 等 功能 ， 其 平台 架构 如 图 A-6 所 示 。 


Kubernetes 


container container container container container 


图 A-6 AlRack 人 工 智能 实验 平台 架构 


配套 实验 手册 包括 20 个 人 工 智能 相关 实验 ， 实 验 基 于 VGGNet、 
FCN、ResNet 等 图 像 分 类 模型 ， 应 用 Faster R-CNN、YOLO 等 优秀 检 
测 框架 ， 实 现 分 类 、 识 别 、 检 测 、 语 义 分 割 、 序 列 预测 等 人 工 智 能 任务 。 
具体 的 实验 手册 大 纲 如 表 A-2 所 示 。 


表 A-2 实验 手册 大 纲 


序号 课 程 名 称 课程 内 容 说 明 
基于 LeNet 模型 和 MNIST 数据 集 | ，、 3 

1 | 的 手写 数字 识别 可 
基于 AlexNet 模型 和 CIFAR-10 数 


2 据 集 图 像 分 类 理论 + 上 机 训练 


基于 GoogleNet 模型 和 ImageNet 

3 | 数据 集 的 图 像 分 类 er 
基于 VGGNet 模 型 和 CASIA WebFace | ，、 、 

4 | 数据 集 的 人 脸 识 别 人 
基于 ResNet 模型 和 ImageNet 数据 

5 集 的 图 像 分 类 理论 + 上 机 训练 


基于 MobileNet 模型 和 ImageNet 


名 糖 器 洲 沉 
兰 店 | 请 将 名和 剧 网 消 




















5 | 数据 集 的 图 像 分 类 理论 + 上 机 训练 
7 re eg i CASIA WebFace | i 上 机 
Tr ed 
10 | 基于 R-FCN 模型 的 行人 检测 理论 + 上 机 训 
11 Rs 模型 和 COCO 数据 集 | 理论 + 上 机 训 








基于 SSD 模型 和 ImageNet 数据 集 
的 目标 检测 


理论 + 上 机 训 
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序号 课程 名 称 





续 表 


课程 内 容 说 明 | 课时 | 培训 对 象 





数据 集 的 目标 检测 


基于 YOLO2 模型 和 Pascal VOC 





上 机 训练 .5 | 教师、 学 生 





14 | 基于 linear regression 的 房价 预测 


上 机 训练 | 1.5 | 教师、 学 生 








15 | 基于 CNN 模型 的 营 尾 花 品种 识别 | 理论 + 上 机 训练 .5 | 教师、 学 生 








16 | 基于 RNN 模型 的 时 序 预 测 


上 机 训练 | 1.5 | 教师、 学 生 





17 | 基于 LSTM 模型 的 文字 生成 
18 | 基于 LSTM 模型 的 英法 翻译 
基于 CNN Neural Style 模型 绘画 


风格 迁移 


上 机 训练 | 1.5 | 教师 、 学 生 
教师 、 学 生 


教师 、 学 生 








20 | 基于 CNN 模型 灰色 图 片 着 色 











教师 、 学 生 


同时 , 平台 同步 提供 实验 代码 以 及 MNIST、CIFAR-10、ImageNet、 
CASIA WebFace、Pascal VOC、Sift Flow、COCO 等 训练 数据 集 ， 实 验 
数据 做 打包 处 理 ， 以 便 开展 便捷 、 可 靠 的 人 工 智 能 和 深度 学 习 应 用 。 
AIRack 人 工 智能 实验 平台 硬件 配置 如 表 A-3 所 示 。 


表 A-3 AIRack 人 工 智能 实验 平台 硬件 配置 


产品 名 称 
CPU 
内 存 
SsD 
硬盘 
GPU 


AIRack 人 工 智 能 实验 平台 集群 配置 如 表 A-4 所 示 。 
表 A-4 AIRack 人 工 智能 实验 平台 集群 配置 





标 准 型 增强 型 




















上 机 人 数 48 人 7 大 
服务 器 6 台 9 台 
交换 机 S5720-30C-SI “| S5720-30C-SI | S5720-30C-SI 
CPU E5-2650V4 E5-2650V4 E5-2650V4 E5-2650V4 
Ne 1080P 1080P 1080P 1080P 

(型 号 可 选 》 (型 号 可 选 ) (型 号 可 选 》 (型 号 可 选 ) 
内 存 8*32GB DDR4 |24*32GB DDR4 | 48*32GB DDR4 | 72*32GB DDR4 


RECC RECC 
SSD 1*480GB SSD | 3*480GB SSD 
硬盘 4*4TB SATA 12*4TB SATA 





RECC RECC 
6*480GB SSD 9*480GB SSD 
24*4TB SATA |36*4TB SATA 





在 人 工 智能 实验 平台 之 外 ， 针 对 目前 全 国 各 大 高 校 相继 开启 深度 


学 习 相 关 课 程 ，DeepRack 深度 学 习 一 体 机 (http://www.cstor.cn/ 
proTextdetail 10766.html) 一 举 解决 了 深度 学 习 研 究 环 境 搭建 耗 时 、 硬 
件 条 件 要 求 高 等 种 种 问题 。 

凭借 过 硬 的 硬件 配置 , 深度 学 习 一 体 机 能 够 提供 最 大 每 秒 144 万 亿 
次 的 单 精度 计算 能 力 , 满 配 时 相当 于 160 台 服 务 器 的 计算 能 力 。 考 虑 到 
实际 使 用 中 长 时 间 大 规模 的 运算 需要 ， 一体 机 内 部 采用 了 专业 的 散热 、 
能 耗 设计 ， 解 决 了 用 户 对 于 机 器 负荷 方面 的 忧虑 。 

一 体 机 中 部 署 有 TensorFlow、Caffe 等 主流 的 深度 学 习 开源 框架 ,并 
提供 大 量 免费 图 片 数据 ， 可 帮助 学 生 学 习 诸 如 图 像 识 别 、 语 音 识别 和 语 
言 翻译 等 任务 。 利 用 一 体 机 中 的 基础 训练 数据 , 包括 MNIST、CIFAR-10、 
ImageNet 等 图 像 数 据 集 ， 也 可 以 满足 实验 与 模型 塑造 过 程 中 的 训练 数据 
需求 。 深 度 学 习 一 体 机 外 观 如 图 A-7 所 示 ， 服 务 器 内 部 如 图 A-8 所 示 。 





图 A-7 深度 学 习 一 体 机 外 观 图 A-8 深度 学 习 一 体 机 节点 内 部 


深度 学 习 一 体 机 服务 器 配置 参数 如 表 A-5 所 示 。 
表 A-5 服务 器 配置 参数 














经 济 型 增 强 型 
CPU Dual E5-2620 V4 Dual E5-2697 V4 
GPU Nvidia Titan X *4 Nvidia Tesla P100*4 
硬盘 240GB SSD+4T 企 | 480GB SSD+4T 企 | 800GB SSD+4T*7 企 
业 盘 业 盘 业 盘 
内 存 64GB 128GB 256GB 
计算 节点 数 2 4 
poe 88 万 亿 次 / 秒 108 万 亿 次 / 秒 144 万 亿 次 / 秒 
系统 软件 Caffe、TensorFlow 深度 学 习 软 件 、 样 例 程序 ， 大 量 免 费 图片 
数据 
是 否 支持 分 布 式 | 。 
深度 学 习 系统 “| 
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此 外 , 对 于 构建 高 性 价 比 硬件 平台 的 个 性 化 的 AI 应 用 需求 , dServer 
人 工 智能 服务 器 (http://www.cstor.cn/proTextdetail 12032.html) 采用 英 
特 尔 CPU+ 英 伟 达 GPU 的 混合 架构 ， 预 装 CentOS 操作 系统 ， 集 成 两 套 
行业 主流 开源 工具 软件 一 一 TensorFlow 和 Caffe， 同 时 提供 MNIST、 
CIFAR-10 等 训练 测试 数据 , 通过 多 类 型 的 软 硬 件 备 选 方 案 以 及 高 性 能 、 
点 菜 式 的 解决 方案 , 方便 自由 选 配 及 定制 安全 可 靠 的 个 性 化 应 用 , 可 广 
泛 用 于 图 像 识别 、 语 音 识别 和 语言 翻译 等 AI 领域 。dServer 人 工 智能 服 
务 器 如 图 A-9 所 示 ， 配 置 参数 如 表 A-6 所 示 。 





A-9 dServer 人 工 智能 服务 器 


表 A-6 dServer 人 工 智能 服务 器 配置 参数 


参 数 
Tesla P100, Tesla P4, Tesla P40，Tesla K80, Tesla M40， 
Tesla M10, Tesla M60, TITAN X, GeForce GTX 1080 


配 置 


GPU (NVIDIA) 








CPU Dual E5-2620 V4, Dual E5-2650 V4, Dual E5-2697 V4 
内 存 64GB/128GB/256GB 

系统 盘 120GB SSD/180GB SSD/240GB SSD 

数据 盘 2TB/3TB/4TB 

准 系统 7048GR-TR 

软件 TensorFlow, Caffe 

数据 ( 张 ) 车 牌 图片 (100 万 /200 万 /500 万 ) ，ImageNet (100 万 ) ， 





人 脸 图 片 数 据 (50 万 ) ， 环 保 数据 


目前 , dServer 人 工 智 能 服务 器 已 经 在 清华 大 学 车 联网 数据 云 平台 、 
西安 科技 大 学 大 数据 深度 学 习 平 台 、 湖北 文理 学 院 大 数据 处 理 与 分 析 平 
台 等 项 目 中 部 署 使 用 。 其 中 ， 清 华 大 学 车 联网 数据 云 平台 项 目 配置 如 
图 A-10 所 示 。 


。 一 附录 A 大 数据 和 人 工 智 





ft 


名 称 


深度 学 习 服务 器 














生产 厂家 南京 云 创 大 数据 科技 股份 有 限 公司 
主要 规格 cServer C1408G 
CPU: 2*E5-2630v4 GPU: 4*NVIDIA TITAN X 内 存 : 4*16G (64G) DDR4,2133MHz，RECC 
硬盘 : 5* 2.5"300GB 10K SAS (企业 级 ) 网 口 : 4 个 10/100/1000Mb 自 适应 以 太 网 口 
卫生 说 有 电源 ; 2000W 1 元 余 电 源 计算 性 能 : 单个 节点 捍 精 度 浮 点 计算 性 能 为 44 万 亿 次 / 秒 








预 装 Caffe，TensorFlow 深 度 学 习 软 件 、 样 例 程 序 ， 提 供 MNIST、CIFAR-10 等 训练 测试 数据 ， 提 供 交通 卡 口 图 片 
数据 不 少 于 400 万 张 ， 环 境 在 线 数据 不 少 于 6 亿 条 





综 上 所 述 ， 大 数据 实验 平台 1.0 用 于 个 人 自学 大 数据 远程 做 实验 ; 
大 数据 实验 一 体 机 受到 各 大 高 校 青睐 , 用 于 构建 各 大 学 自己 的 大 数据 实 
验 教学 平台 ， 使 得 大 量 学 生 可 同时 进行 大 数据 实验 ，AIRack 人 工 智 能 
实验 平台 支持 众多 师 生 同时 在 线 进行 人 工 智能 实验 ，DeepRack 深度 学 


A-10 ”清华 大 学 车 联网 数据 云 平 台 项 目 配置 


习 一 体 机 能 够 给 高 校 和 科研 机 构 构 建 一 个 开 箱 即 用 的 人 工 智能 科研 环 


境 ，dServer 人 工 智能 服务 器 可 直接 用 于 小 规模 AI 研究 ， 或 搭建 AI 科 


研 集群 。 


能 实验 环境 
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Hadoop 环境 要 求 


1. 硬件 要 求 


Hadoop 集群 需要 运行 几 十 、 几 百 甚 至 上 千 个 节点 ， 选 择 匹 配 相应 
的 工作 负载 的 硬件 ， 能 在 保证 效率 的 同时 最 大 可 能 地 节省 成 本 。 

一 般 来 说 ，Datanode 的 推荐 规格 为 : 

口 4 个 磁盘 驱动 器 (1 一 4TB )。 

口 2 个 4 核 CPU (2~2.5GHz)。 

口 16 一 64GB 的 内 存 。 

口 干粮 以 太 网 (存储 密度 越 大 ， 需 要 的 网 络 吞 吐 量 越 高 )。 

Namenode 的 推荐 规格 为 : 

口 ”8 一 12 个 磁盘 驱动 器 〈1 一 4TB )。 

口 2 个 4/8 核 CPU (2~2.5GHz)。 

口 “32 一 128GB 的 内 存 。 

口 “ 千 兆 或 万 兆 以 太 网 。 

2. 操作 系统 要 求 

HDP 2.6.0 支持 的 操作 系统 版 本 如 表 B-1 所 示 。 

表 B-1 HDP 2.6.0 支持 的 操作 系统 版 本 


操作 系统 版 本 

CentOS 7.0/7.1/7.2 

CentOS 6.1/6.2/6.3/6.4/6.5/ 6.6/6.7/6.8 
Debian 7 








CentOS (64bit) 








Debian 


操作 系统 版 本 
Oracle 7.0/7.1/7.2 
Oracle 6.1/6.2/6.3/6.4/6.5/6.6/6.7/6.8 
RHEL 7.0/7.1/7.2 
RHEL 6.1/6.2/6.3/6.4/6.5/6.6/6.7/6.8 
(SLES) Entreprise Linux 12, SP2 
(SLES) Enterprise Linux 12, SP1 
(SLES) Enterprise Linux 11, SP4 
(SLES) Enterprise Linux 11, SP3 
Ubunta C64bit) Ubuntu 16.04 (Xenial) 
Ubuntu 14.04 (Trusty) 


3. 浏览 器 要 求 


Ambari 是 基于 Web 的 Apache Hadoop 集群 的 供应 、 管 理 和 监控 工 
具 ， 需 要 浏览 器 的 支持 ， 支 持 的 浏览 器 版 本 如 表 B-2 所 示 。 


表 B-2 Ambari 2.5.0 支持 的 浏览 器 版 本 


操作 系统 浏 览 器 
Chrome 56.0.2924/57.0.2987 
Firefox 51/52 

Chrome 56.0.2924/57.0.2987 

MacOSX Firefox 51/52 

Safari 10.0.1/10.0.3 

Chrome 56.0.2924/57.0.2987 
Edge 38 
Firefox 51.0.1/52.0 
Internet Explorer 10/11 





Oracle (64bit) 








Red Hat (64bit) 








SUSE (64bit) 


SUSE (64bit) 














Linux 





Windows 





(1) Java 环境 要 求 
Hadoop 是 由 Java 实现 的 ， 需 要 Java 环境 支持 ， 支 持 的 JDK 版 本 
如 表 B-3 所 示 。 


表 B-3 HDP 2.6.0 支持 的 JDK 版 本 


JDK 版 ”本 

JDK8i1 

JDK71, deprecated 

JDK 8, 64bit (minimum JDK 1.8.0 77), default 
JDK 7, 64bit (minimum JDK 1.7 67), deprecated 


(2) Python 环境 要 求 
Hadoop 的 Web 工具 ambari 是 基于 Python 语言 编写 的 ， 需 要 安装 
Python 环境 。HDP 2.6.0 支持 的 Python 版 本 为 2.6 及 以 上 。 








Open Source 








Oracle 






名 词 解释 


有 关 大 数据 的 一 些 名 词 解释 如 表 C-1 所 示 。 














表 C-1 名 词 解释 
名 词 解 释 

i Apache Ambari 是 一 种 基于 Web 的 工具 ， 支 持 Apache Hadoop 
集群 的 供应 、 管 理 和 监控 

Browser 网 页 浏览 器 ， 文 中 如 非特 指 ， 采 用 的 是 Google Chrome 浏览 器 

CAB 变更 咨询 委员 会 (Change Advisory Board) 

CCB 配置 控制 委员 会 (Configuration Control Board) 

CDH Cloudera Distribution Hadoop, 即 Cloudera 公司 的 发 行 版 Hadoop 
配置 项 (Configuration Item) 是 指 要 在 配置 管理 控制 下 的 资产 、 
人 力 、 服 务 组 件 或 者 其 他 逻辑 资源 。 从 整个 服务 或 系统 来 说 ， 

CI 包括 硬件 、 软 件 、 文 档 、 支 持 人 员 到 单独 软件 模块 或 硬件 组 件 
(CPU、 内 存 、SSD、 硬 盘 等 )。 配置 项 需要 有 整个 生命 周期 ( 状 
态 ) 的 管理 和 追溯 (日志 ) 

人 Command Line Interface， 命 令 行 界 面 ， 用 户 可 以 在 该 界面 输入 
命令 ， 对 系统 进行 操作 
配置 管理 (Configuration Management)， 是 通过 技术 或 行政 手段 

CM 对 软件 产品 及 其 开发 过 程 和 生命 周期 进行 控制 、 规 范 的 一 系列 
措施 
配置 管理 数据 库 (Configuration Management Database )， 用 于 存 

人 储 与 管理 企业 IT 架构 中 设备 的 各 种 配置 信息 , 它 与 所 有 服务 支 





持 和 服务 交付 流程 都 紧密 相连 ,支持 这 些 流 程 的 运转 、 发 挥 配 
置信 息 的 价值 ， 同 时 依赖 于 相关 流程 保证 数据 的 准确 性 


























名 词 解 释 

CMS 配置 管理 系统 (Configuration Management System) 
拒绝 服务 (Denial of Service)，DoS 攻击 是 通过 大 量 访问 耗 尽 被 

DoS 攻击 对 象 的 资源 ， 让 目标 计算 机 或 网 络 无 法 提供 正常 的 服务 或 
资源 访问 ， 使 目标 系统 服务 系统 停止 响应 其 至 崩溃 

ECAB 紧急 变更 咨询 委员 会 (Emergency Change Advisory Board) 

Elastic Search | 一 个 基于 Lucene 的 搜索 服务 器 ， 常 用 于 日 志 分 析 

GUI 图 形 用 户 界面 (Graphical User Interface) 

Hadoop 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 

Hbase HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 

HDP Hortonworks Data Platform，Hortonworks 公司 的 Hadoop 平 台 

二 Cloudera 公司 主导 开发 的 新 型 查询 系统 ， 它 提供 SQL 语义 ， 能 
查询 存储 在 Hadoop 的 HDFS 和 HBase 中 的 PB 级 大 数据 

ISO2000 信息 技术 服务 管理 体系 标准 ， 是 面向 机 构 的 IT 服务 管理 标准 
IT 基础 架构 库 即 信息 技术 基础 架构 库 〈ITIL ，Information 
Technology Infrastructure Library) 由 英国 政府 部 门 CCTA (Central 

击 访 Computing and Telecommunications Agency) 在 20 世纪 80 年 代 
末 制 订 , 现 由 英国 商务 部 OGC( Office of Government Commerce) 
负责 管理 ， 主 要 适用 于 IT 服务 管理 (ITSM)。ITIL 为 企业 的 IT 
服务 管理 实践 提供 了 一 个 客观 、 严 谨 、 可 量化 的 标准 和 规范 

Job 作业 ， 指 提交 到 Hadoop 大 数据 系统 中 运行 的 作业 
一 种 编程 模型 ， 用 于 大 规模 数据 集 (大 于 1TB) 的 并 行 运算 。 
概念 “Map〔( 映 射 )” 和 “Reduce( 归 约 )”， 是 它们 的 主要 思想 ， 
都 是 从 函数 式 编程 语言 里 借 来 的 ， 还 有 从 矢量 编程 语言 里 借 来 

Nid 的 特性 。 它 极 大 地 方便 了 编程 人 员 在 不 会 分 布 式 并 行 编程 的 情 
况 下 , 将 自己 的 程序 运行 在 分 布 式 系统 上 。 当前 的 软件 实现 是 
指定 一 个 Map〈 映 射 ) 函数 ， 用 来 把 一 组 键 值 对 映射 成 一 组 新 
的 键 值 对 ， 指 定 并 发 的 Reduce〈 归 约 ) 函数 ， 用 来 保证 所 有 映 
射 的 键 值 对 中 的 每 一 个 共享 相同 的 键 组 

Master 主 节点 ， 指 构成 Hadoop 大 数据 系统 的 主 服务 器 节点 
一 个 介 于 关系 数据 库 和 非 关 系数 据 库 之 间 的 产品 ， 是 非 关系 数 

MongoDB 据 库 当中 功能 最 丰富 ， 最 像 关 系数 据 库 的 ， 支 持 的 数据 结构 非 
常 松 散 ， 是 类 似 json 的 bson 格式 , 因此 可 以 存储 比较 复杂 的 数 
据 类 型 

MTTF Mean Time To Failure， 平 均 失效 前 时 间 

MTTR Mean Time To Restoration， 平 均 恢复 前 时 间 

NoSQL Not only SQL， 泛 指 非 关系 型 的 数据 库 
Network Time Protocol， 通 过 网 络 对 时 的 协议 ， 用 于 将 多 台 服 务 

i 器 的 时 间 保 持 一 致 

OTRS Open Technology Real Services， 一 种 工 单 管理 软件 
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续 表 
解 释 





PDCA 


PDCA 是 英语 单词 Plan〈 计 划 )、Do (执行 )、Check (检查) 和 
Adjust (纠正 ) 的 第 一 个 字母 ， PDCA 循环 就 是 按照 这 样 的 顺序 
进行 质量 管理 ， 并 且 循 环 不 止 地 进行 下 去 的 科学 程序 
Redundant Arrays of Independent Disks， 磁 盘 阵 列 ， 磁 盘 阵列 是 
由 很 多 价格 较 便宜 的 磁盘 ， 组 合成 一 个 容量 巨大 的 磁盘 组 ， 利 
用 个 别 磁盘 提供 数据 所 产生 的 加 成 效果 提升 整个 磁盘 系统 效能 
Recovery Point Objective， 灾 备 切换 后 ， 数 据 丢失 的 时 间 范 围 
Recovery Time Objective， 业 务 从 中 断 到 恢复 正常 所 需要 的 时 间 











ZooKeeper 


配置 基线 


从 节点 ， 指 构成 Hadoop 大 数据 系统 的 从 服务 器 节点 





专 为 大 规模 数据 处 理 而 设计 的 快速 通用 的 计算 引擎 

一 款 开源 的 工具 ， 主 要 用 于 在 Hadoop (Hive) 与 传统 的 数据 库 
(MySQL、PostgreSQL 等 ) 间 进 行 数据 的 传递 ， 可 以 将 一 个 关系 
型 数据 库 (如 MySQL、Oracle、PostgreSQL 等 ) 中 的 数据 导入 
Hadoop 的 HDFS 中 ,也 可 以 将 HDFS 的 数据 导入 关系 型 数据 库 中 
Secure Shell， 专 为 远程 登录 会 话 和 其 他 网 络 服务 提供 安全 性 的 
协议 

一 个 分 布 式 的 、 可 靠 的 、 容 错 的 数据 流 处 理 系统 

任务 ， 指 Hadoop 作业 中 分 解 出 来 执行 的 任务 

IBM 公司 为 运 维 管理 开发 的 软件 产品 

Yet Another Resource Negotiator, 一 种 新 的 Hadoop 资源 管理 器 
一 个 分 布 式 的 \ 开 放 源 码 的 分 布 式 应 用 程序 协调 服务 ,是 Google 
的 Chubby 中 一 个 开源 的 实现 ,是 Hadoop 和 HBase 的 重要 组 件 。 
它 是 一 个 为 分 布 式 应 用 提供 一 致 性 服务 的 软件 ， 提 供 的 功能 包 
括 配 置 维护 、 域 名 服务 、 分 布 式 同步 、 组 服务 等 

在 服务 或 服务 组 件 的 生命 周期 中 ， 某 一 时 间 点 被 正式 指定 的 配 
置信 息 


